Testu-corpusen informazio morfosintaktikoaren etiketatze automatikoa hizkuntz ezagutzan oinarriutz: zenbait arazo, hainbat erronka

Maila morfosintaktikoan etiketatutako euskarazko corpusen desanbiguatze-lanetan urtetan aritu ondoren, bide horretan topatutako hainbat zailtasunen berri emango dugu artikulu honetan eta, horrekin batera, hainbat irizpide birplanteatzeko beharra ere azalduko dugu. Testuingurua hizkuntzalaritza konputazionala izanik, guk erabilitako metodologia erregeletan oinarritutako gramatikena da, hau da, informazio linguistikoa baliatuz aurrera eramaten dena. Zehazki, kategoria gramatikalaren eta azpikategoriaren etiketatzeari begira, hurbilpen linguistiko batetik desanbiguazio-emaitzak ulertzeko, analisi horien iturriak azalduko ditugu; nola erdiesten ditugun analisi horiek, zer zailtasun dituzten desanbiguatzeko, erregelak diseinatzerakoan kontuan hartu beharreko zenbait ezaugarri linguistiko eta etorkizunerako lanak.

Authors: 
Itziar Aduriz, Jose Mari Arriola

Publication topic:

Year: 
2020
Evaluation: 

ANEP sailkapenean C kategoria eta CIRC; CARHUS sailkapenean D kategoria

Publication place: 

Fontes Linguae Vasconum 50 urte: ekarpen berriak euskararen ikerketari/ Nuevas aportaciones al estudio de la lengua vasca. (argitaratze-bidean)

Tesi zuzendariak: 
Ekaitz Santazilia Salvador

Publication type:

Publication clasification:

HiTZeko jakintza arloa: