ZT Corpusa

Deskribapen laburra: 
Zientzia eta Teknologiako testuen corpusa (morfosintaktikoki etiketatua).
Egileak (ixakideak ez direnak): 
Nerea Areta ,Antton Gurrutxaga ,Igor Leturia
Harremanetarako: 
xabier.artola@ehu.es
Deskribapena: 
Zientzia eta Teknologiaren Corpusa, edo ZT corpusa, zientzia eta teknologiaren alorreko euskarazko testu-bilduma egituratu eta etiketatua da, eta alor horietako euskararen erabilera ikertzeko baliabidea izatea du helburu nagusia.

Corpus berezi edo espezializatua da, eta UPV/EHUko IXA taldeak eta Elhuyar Fundazioak elkarlanean eratu dute.

Corpusaren osaera dela eta, 1990-2002 bitartean argitaratutako zientzia eta teknologiaren alorreko obrak hartu dira kontuan corpusa elikatzeko. Corpus sailkatua da, eremuaren (jakintza-alorraren) eta generoaren (testu-motaren) arabera.

Corpus etiketatua da, bai testuaren egiturari eta formatuari dagokionez, bai linguistikoki. Etiketatze linguistikoa egiteko, euskara automatikoki prozesatzeko teknologia aurreratua erabili da (IXA taldearen Eustagger etiketatzailea). Testuko hitz bakoitzaren lema eta kategoria/azpikategoria etiketatu dira. Corpusaren lehen bertsio honetan, 8,5 milioi hitz daude, eta horietatik 1,9 milioi hitz eskuz berrikusi, desanbiguatu eta zuzendu dira.
Funtzionalitatea: 
Corpusa kontsultatzeko interfaze ahaltsua antolatu dugu, eta erabiltzaileak era askotako bilaketa bakunak eta konplexuak egiteko aukera izango du, horretarako parametro-multzo zabala erabiliz: lema, testu-forma, kategoria, eremua, generoa, corpus-atala (eskuz zuzendua/corpus osoa)...
Emaitzak bi eratakoak izan daitezke:


- Batetik, bilagaiaren testuinguru labur lerrokatuak (KWIC edo konkordantziak), zenbait irizpideren arabera ordena daitezkeenak (dokumentua, lema, forma, aurreko eta ondoko testuingurua, eremua, generoa...); nahi izanez gero, agerraldi bakoitzaren testuinguru zabalagoa bistara daiteke (300 hitz), dagokion obraren erreferentziarekin batera

- Bestetik, informazio kuantitatiboa: lemen eta formen agerraldien maiztasuna, horien aurretik edo ondoren agertzen diren lemen edo formen maiztasunak, eremu edo generoaren araberako banaketa, eta abar.
Teknologia: 
XML, XSLT, egoera finituko morfologia (finite-state morphology).
Moduluak: 
Corpusgile, Eustagger, Eulia.
Oharrak: 
8,5 milioi hitz daude, eta horietatik 1,9 milioi hitz eskuz berrikusita.

Lantalde osoa