UnsupNMT: Traducción Automática Neuronal no Supervisada: un nuevo paradigma basado solo en textos monolingües.

Itzulpen automatikoa teknologia heldua da eta pisu ekonomiko handia du, baina oraindik ere hobekuntza marjina handia du testu elebidun gutxi daudenean. Proiektu honek itzulpen automatikoa egiteko metodo guztiz berria proposatzen du: gainbegiratu gabeko itzulpena. Hau da, testu elebakarretan soilik oinarritua, baliabide elebidunik gabe. Metodoa hizkuntzen arteko hitz-errepresentazioak (cross-lingual word embeddings) eta sekuentzien ikaskuntza sakona erabiltzen ditu.

Proposamen berritzailea izateaz gain, itzulpen automatikoaren paradigma berri bat zabaltzen du beste diziplina batzuetako adarkatzeekin. Bi hizkuntzetako esaldiak kodifikatzaile bera erabiliz kodetzea planteatzen denez, horrek eragina du egungo hizkuntza-prozesadoreak entrenatzen diren eran, eta, beraz, hizkuntza natural eleaniztuna prozesatzeko eta hizkuntzaren industrietan eragina izateko modua erabat alda dezake.

Proiektuak itzulpenaren industria asaldatzeko ahalmena du. Egungo itzulpen automatikoak arazoak ditu testu elebidun gutxi dituzten hizkuntza bikoteak (alemana eta errusiera, adibidez), eta domeinuak (medikoa edo juridikoa, adibidez) itzultzeko. Proposatutako itzultzaile ez gainbegiratuari baliabide elebidunak gehitzerakoan itzulpen kalitatea hobetzen denez, proiektu honek kasu horietan gaur egun lortzen den itzulpen automatikoaren kalitatea hobetuko aukera emango du.

Deskribapena (en): 

Machine translation is a mature technology with great economic importance, which still has considerable room for improvement when few bilingual texts are available. This project proposes a radically different method of automatic translation: unsupervised translation, i.e. based exclusively on monolingual texts without any bilingual resources. The method is based on deep learning of sequences and the latest advances in cross-lingual word embeddings.

In addition to being a highly innovative proposal, it opens up a new paradigm of automatic translation with ramifications in other disciplines. Since we propose to represent phrases from two languages using the same coder, this has implications for the way current linguistic processors are trained, which can entirely change the way natural multilingual language processing is done and impact the language industries.

The project has the potential to disrupt the translation industry. Current machine translation has problems translating language pairs with little contact (e.g. German and Russian), and specific domains with few bilingual texts (e.g. medical or legal). Since the proposed unsupervised translation system is further enhanced with bilingual resources, this project will improve the quality of automatic translation in such cases, with a real impact on the translation industry.

Kode ofiziala: 
TIN2017‐91692‐EXP
Ikertzaile nagusia: 
Eneko Agirre
Erakundea: 
Ministerio de Economía, Industria y Competitividad. (Explora)
Hasiera data: 
2018/11/01
Bukaera data: 
2020/10/31
Taldeko ikertzaile nagusia: 
Eneko Agirre
Kontratua: 
Ez