Helburuak
Euskal Herriko Unibertsitateko Informatika Fakultateko IXA taldeak Lengoaia Naturalaren Prozesamenduan eginiko ikerketa-lana du helburu nagusi. Hizkuntz ingeneritza lez ere ezagutzen da mintzagai dugun alor hau. Euskararen gaineko ikerketa aplikatua da gure xede nagusia. Lan horretan diziplinarteko taldea osatzen du IXA taldeak informatikarien eta linguisten artean batez ere.
Azken helburua euskararako, teknologia berrien eragina hizkuntzan ahalik eta onena izan dadin.
Historia
IXA taldea 1987an sortu zen eta jasotako emaitza guztiak euskarari lotuak izan dira. Urteak aurrera joan ahala taldea eta zereginak handitu egin dira. 31 informatikari, 14 linguista eta beste alorretako adietuek osatzen dute talde hau.
Egindako proiektu finantzatuak 40tik gora dira. Hona hemen emaitza batzuk: (web orrialdean ongi agertzen den bezala:)
APLIKAZIO ETA TRESNA KOMERTZIALAK
- EDBL (Euskararen Datu-Base Lexikala), 80.000 hitz inguruko datu-basea http://sipl54.si.ehu.es/edbl2000.
- MORFEUS, estaldura zabaleko analizatzaile morfologikoa.
- XUXEN, zuzentzaile/egiaztatzaile ortografiko komertziala (patentatua), Unix, Windows eta Mac-erako garatua. www.sc.ehu.es/xuxen-e.htm helbidean eskuragarri.
- GAIN, internet/intraneterako bilatzaile adimenduna. Jalgin eta Euskaldunon Egunkariaren hemerotekan erabilia.
- EUSLEM, euskararako lematizatzaile/etiketatzailea.
- Multimeteo-euskara, eguraldi-iragarpenak euskaraz sortzeko sistema.
- Elhuyar Hiztegia Word2000 testu-editorean integratua.
PROTOTIPOAK
- HIZTSUA, hiztegi-sistema urgazle adimenduna.
- ANHITZ, itzulpenean laguntzeko hiztegi adimenduna.
- Hiztegixa, itzulpenean laguntzeko tresna.
|
|
Lehen |
Orain |
Gero |
|
Corpus |
corpus-I. Testu bilketa markaketa arinarekin |
Testu-bilketa |
100M hitz |
|
corpus-II. Hitz bakoitza bere lema eta kategoriarekin etiketatuta |
Aberasten |
20 M hitz |
|
|
|
corpus-III. Sintaktikoki etiketatutako testua |
200.000 hitz |
|
|
|
|
corpus-IV. Semantikoki etiketatutako testua |
|
|
corpus-IV. Corpus eleanitza eta lerrokatua |
Corpus eleanitza eta lerrokatua biltzen |
100 M hitz |
|
|
Lexikoa |
EDBL datu-base lexikala. – Kategoria |
Bertsio hobetua (4.4.2) Aberasten: |
Aberasten: |
|
Hiztegi elektronikoak (MRD) |
Hiztegi elektronikoak (MRD) |
Hiztegi elektronikoak (MRD) |
|
|
Morfo |
Morfologiaren deskribapena |
|
|
|
Sintaxia |
Sintaxiaren deskribapena |
Sintaxiaren deskribapena |
Sintaxiaren deskribapena |
|
Sem |
Ezagutza-Base Kontzeptu-taxonomia |
Beste hizkuntzetako corpusetatik informazioa eskuratzea
Aberasten eta hobetzen Euskal WordNet
|
Aberasten eta hobetzen Euskal WordNet |
Tresnak
|
|
Lehen |
Orain |
Gero |
|
Corpus |
Corpusak sortu eta lantzeko tresnak |
Corpusak sortu eta lantzeko tresnak |
Corpusak sortu eta lantzeko tresnak |
|
|
Lexiko-eskurapen automatikoa: Terminologia |
|
|
|
Lexikoa |
Hiztegien bertsio elektronikoak |
|
Lexikografoarentzako lan-postua (workbench) |
|
Morfo |
Analizatzaile/Sortzaile morfologikoa |
Hobetzen |
|
|
Lematizatzaile/ Etiketatzailea |
Hobetzen |
|
|
|
Sintaxia |
Azaleko sintaxia: |
Hobetzen |
Parserra |
|
Semantika |
Adiera-desanbiguazioa (WSD) |
WSD hobetzen |
WSD hobetzen |
|
Integrazioa |
Tresnen integraziorako ingurune informatikoa
|
Tresna berriak integratzen |
Hobetu |
Aplikazioak
|
Lehen |
Orain |
Gero |
|
Zuzentzaile ortografikoa |
Bertsioak |
|
|
|
Gramatika- eta estilo- zuzentzailea |
|
|
Lematizazioa eta hizkuntza-bereizketa darabiltzan testuetarako |
Informazio-bilaketa (Information Retrieval) |
Informazio-erauzketa (Information Extraction) Galdera-erantzutea |
|
Elhuyar Gazt-Eusk hiztegi elebidunaren integrazioa Word editorearekin |
|
|
|
UZEIren sinonimo-hiztegiaren integrazioa Word editorearekin |
|
|
|
Ibon Sarasolaren Euskal Hiztegiaren bertsio elektroniko aberastua |
Hiztegi-kontsultarako sistema aurreratua |
|
|
|
Baliabide lexikal heterogeneoen integrazioa |
|
|
|
Bigarren hizkuntza ikasteko sistemak |
|
|
|
Itzulpen-memorien sorkuntza |
Itzulpen-memoriak (perpausa baino txikiago diren unitateak erabilita) |
|
Itzulpen-laguntzak. |
Hobetzen |
|
|
|
|
Elkarrizketa-sistemak |
O O O O O