» » » » » » » Abordări în traducerea automată

Abordări în traducerea automată

Direct_translation_and_transfer_translation_pyramind (Piramida lui Bernard Vauquois arătând valorile comparative ale reprezentării intermediare, traducerea automată interlinguală la vârf, urmată de cea bazată pe transferul, apoi traducere directă.)

Traducerea automată poate folosi o metodă bazată pe regulile lingvistice, ceea ce înseamnă că cuvintele vor fi traduse într-un mod lingvistic – cele mai potrivite (oral) cuvinte ale limbii țintă vor înlocui pe cele din limba sursă.

Se argumentează adesea că succesul traducerii automate necesită rezolvarea mai întâi a problemei de înțelegere a limbajului natural.

În general, metodele bazate pe reguli analizează un text, creând, de obicei, o reprezentare intermediară, simbolică, de la care este generat textul în limba țintă. În funcție de natura reprezentării intermediare, o abordare este descrisă ca fiind traducere automată interlinguală sau pe bază de transfer. Aceste metode necesită lexicoane extinse cu informații morfologice, sintactice și semantice, și seturi mari de reguli.

Având suficiente date, programele de traducere automată funcţionează de multe ori destul de bine pentru un vorbitor nativ al unei limbi pentru a obține sensul aproximativ a ceea ce este scris de către cealaltă vorbitor nativ. Dificultatea constă în obţinerea de suficiente date de tipul adecvat pentru a sprijini metoda specială . De exemplu, corpusul mare multilingv de date necesare pentru ca metodele statistice să fie valabile, nu este necesar pentru metodele bazate pe gramatică. Dar apoi, metodele gramaticale au nevoie de un lingvist calificat pentru a proiecta cu atenție gramatica pe care o folosesc.

Pentru a traduce între limbi foarte apropiate, se foloseşte o tehnică menționată ca traducere automată pe bază de transfer.

Traduceri automate pe bază de reguli

Paradigma traducerii automate bazată pe reguli include traducerea automată pe baza de transfer, traducere automată interlinguală și paradigme de traducere automată pe bază de dicționar. Acest tip de traducere este folosit mai ales în crearea de dicționare și programe de gramatică. Spre deosebire de alte metode, traducerile automate bazată pe reguli implică mai multe informații despre lingvistica limbilor sursă și țintă, folosind regulile morfologice şi sintactice și analiza semantică a ambelor limbi. Abordarea de bază presupune conectarea structurii propoziției de intrare cu structura propoziției de ieșire folosind un parser și un analizor pentru limba sursă, un generator pentru limba țintă, și un lexicon de transfer pentru traducerea actuală. Cel mai mare dezavantaj pentru traducerile pe bază de reguli este că totul trebuie făcut în mod explicit: variația de ortografie și erorile de intrare trebuie să fie parte a analizorului limbajului sursă, pentru a face față, și regulile de selecție lexicale trebuie să fie scrise pentru toate propoziţiile ambigui. Adaptarea la noile domenii în sine nu este așa de greu, întrucât gramatica de bază este aceleași în toate domenile, iar ajustarea de domeniu specific este limitată la ajustarea selecției lexicale.

Traduceri automate pe bază de transfer

Traducerea automată pe bază de transfer este similară cu traducere automată interlinguală prin aceea că se creează o traducere dintr-o reprezentare intermediară care simulează sensul sentinței inițiale. Spre deosebire de traducerea automată interlinguală, traducerea automată pe bază de transfer depinde parțial de perechea de limbi implicate în traducere.

Traduceri automate interlinguale

Traducerea automată interlinguală este un aspect al abordărilor traducerilor automate pe bază de reguli. În această abordare, limba sursă, adică textul care urmează să fie tradus, se transformă într-o limbă interlinguală, adică un „limbaj neutru”, de reprezentare, care este independent de orice limbă. Limba țintă este apoi generată din interlingua. Unul dintre avantajele majore ale acestui sistem este faptul că interlingua devine cu atât mai valoroasă cu cât suma de limbi țintă în care poate fi transformată crește. Cu toate acestea, singurul sistem interlingual de traducere automată care a fost făcut operațional la nivel comercial este sistemul KANT (Nyberg și Mitamura, 1992), care este proiectat pentru a traduce Caterpillar Technical English în alte limbi.

Traduceri automate pe bază de dicţionar

Traducerea automată poate folosi o metodă bazată pe intrările de dicționar, ceea ce înseamnă că cuvintele vor fi traduse aşa cum se găsesc într-un dicționar.

Traducere automată statistică

Traducere automată statistică încearcă să genereze traduceri folosind metode statistice bazate pe corpus de text bilingv, cum ar fi corpusul Canadian Hansard, înregistrări engleză-franceză ale Parlamentului canadian, și Europarl, înregistrări ale Parlamentului European. În cazul în care aceste corpusuri sunt disponibile, rezultate bune pot fi atinse în traducerea textelor similare, dar aceste corpusuri sunt încă rare pentru mai multe perechi de limbi. Primul software de traducere automată statistică a fost Candide de la IBM. Google a utilizat SYSTRAN timp de mai mulți ani, dar a trecut la o metodă de traducere statistică în octombrie 2007 În 2005, Google a îmbunătățit capacitățile sale de traducere interne, prin utilizarea de aproximativ 200 de miliarde de cuvinte din materialele Națiunilor Unite în sistemul lor de instruire. Astfel s-a îmbunătăţit acurateţea traducerilor. Google Translate și alte programe de traducere statistice similare funcţionează prin detectarea modelelor în sute de milioane de documente, care au fost în prealabil traduse de oameni, și făcând presupuneri inteligente bazate pe rezultate. În general, cu cât documentele disponibile sunt  mai uman-traduse într-o anumită limbă, cu atât mai probabil este că traducerea va fi de bună calitate. Abordări noi în traducerea statistice automată, cum ar fi METIS II și PRESEMT, folosesc dimensiuni minime ale corpusului și în loc să se concentreze pe derivarea structurii sintactice prin recunoașterea formelor. Prin dezvoltarea în continuare, acest lucru poate permite ca traducerea automată statistică să opereze în afara unui corpus de text monolingv. Cel mai mare dezavantaj al traducerii automate statistice este dependenţa de cantități uriașe de texte paralele, problemele sale cu limbi cu morfologie bogată (mai ales cu traducerea în aceste limbi), și incapacitatea sa de a corecta erorile singleton.

Traducere automată pe bază de exemple

Abordarea traducerii automate pe bază de exemple a fost propusă de către Makoto Nagao în 1984. Traducere automată pe bază de exemple se bazează pe ideea de analogie. În aceasta abordare, corpusul care este folosit este unul care conține texte care au fost deja traduse. Având în vedere o propoziție care urmează a fi tradusă, sunt selectate propoziții de la acest corpus care conțin componente sub-sentențiale similare. Propozițiile similare sunt apoi folosite pentru a traduce componentele sub-sentențiale ale sentinței inițiale în limba țintă, iar aceste fraze sunt puse împreună pentru a forma o traducere completă.

Traducere automată hibridă

Traducere automată hibridă foloseşte punctele forte ale metodologiilor statistice și bazate pe reguli de traducere. Mai multe organizații pentru traducere automată (cum ar fi Asia Online, LinguaSys, Systran, și Universitatea Politehnică din Valencia), susțin o abordare hibridă care utilizează atât regulile cât și statisticile. Abordările diferă în mai multe moduri:

  • Reguli post-procesate de statistici: Traducerile sunt efectuate cu ajutorul unui motor pe bază de reguli. Statisticile sunt apoi utilizate într-o încercare de a regla / corecta ieșirea de la motorul pe bază de reguli.
  • Statisticile ghidate de reguli: Regulile sunt utilizate pentru pre-procesarea de date, în încercarea de a ghida mai bine motorul statistic. Regulile sunt de asemenea folosite pentru a post-procesa rezultatele statistice pentru a performa funcții, cum ar fi de normalizarea. Această abordare are o mult mai multă putere, flexibilitate și control atunci când se face traducerea.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *