Testu elebidunak Internetetik jeisteko sistema

Kurtsoa:

Saila:

Deskribapena: 
Euskaraz eta gazteleraz, bietara, Interneten dauden web-orriak detektatu eta dituzten testu elebidun guzti horiek biltzeko sistema bat sortzea da helburua.

Sistemak beste hizkuntza-pareak ere lantzeko balioko du, euskara eta ingelesa adibidez. Horretarako testu bat hizkuntza horietako batean dagoela ziurtatuko digun programa erabiliko ditugu.

Lortutako fitxategi guztiak beren ezaugarriekin (nondik jasoa, itzulpen mota, urtea, ...) etiketatu beharko dira XML lengoaia erabiliz.

Testu elebidun horiek batuz lortzen dena (Corpus elebiduna esaten diogu horri) oso tresna baliagarria da itzulpen-sistema automatikoak eraikitzeko eta ebaluatzeko.
Irakaslea: 
Kepa Sarasola
Esleitua: 
Yes
Estrategikoa: 
No
Kodea: 
0