ORTZIA LOREZ ETA LURRA IZARREZ

Just another WordPress.com weblog

IXA TALDEA Junio 10, 2008

Archivado en: Edizio Digitala, Littera — ziortza @ 4:19 pm

Helburuak

Euskal Herriko Unibertsitateko Informatika Fakultateko IXA taldeak Lengoaia Naturalaren Prozesamenduan eginiko ikerketa-lana du helburu nagusi. Hizkuntz ingeneritza lez ere ezagutzen da mintzagai dugun alor hau. Euskararen gaineko ikerketa aplikatua da gure xede nagusia. Lan horretan diziplinarteko taldea osatzen du IXA taldeak informatikarien eta linguisten artean batez ere.

Azken helburua euskararako, teknologia berrien eragina hizkuntzan ahalik eta onena izan dadin.

Historia

IXA taldea 1987an sortu zen eta jasotako emaitza guztiak euskarari lotuak izan dira. Urteak aurrera joan ahala taldea eta zereginak handitu egin dira. 31 informatikari, 14 linguista eta beste alorretako adietuek osatzen dute talde hau.

Egindako proiektu finantzatuak 40tik gora dira. Hona hemen emaitza batzuk: (web orrialdean ongi agertzen den bezala:)

APLIKAZIO ETA TRESNA KOMERTZIALAK

  • EDBL (Euskararen Datu-Base Lexikala), 80.000 hitz inguruko datu-basea http://sipl54.si.ehu.es/edbl2000.
  • MORFEUS, estaldura zabaleko analizatzaile morfologikoa.
  • XUXEN, zuzentzaile/egiaztatzaile ortografiko komertziala (patentatua), Unix, Windows eta Mac-erako garatua. www.sc.ehu.es/xuxen-e.htm helbidean eskuragarri.
  • GAIN, internet/intraneterako bilatzaile adimenduna. Jalgin eta Euskaldunon Egunkariaren hemerotekan erabilia.
  • EUSLEM, euskararako lematizatzaile/etiketatzailea.
  • Multimeteo-euskara, eguraldi-iragarpenak euskaraz sortzeko sistema.
  • Elhuyar Hiztegia Word2000 testu-editorean integratua.

PROTOTIPOAK

  • HIZTSUA, hiztegi-sistema urgazle adimenduna.
  • ANHITZ, itzulpenean laguntzeko hiztegi adimenduna.
  • Hiztegixa, itzulpenean laguntzeko tresna.

IKERLERROAK

Ekuntza-baliabideak

Lehen

Orain

Gero

Corpus

corpus-I. Testu bilketa markaketa arinarekin

Testu-bilketa

100M hitz

corpus-II. Hitz bakoitza bere lema eta kategoriarekin etiketatuta

Aberasten

20 M hitz

 

corpus-III. Sintaktikoki etiketatutako testua
(50.000 hitz)

200.000 hitz

 

 

corpus-IV. Semantikoki etiketatutako testua
(50.000 hitz)

corpus-IV. Corpus eleanitza eta lerrokatua

Corpus eleanitza eta lerrokatua biltzen

100 M hitz

Lexikoa

EDBL datu-base lexikala. – Kategoria
- Inf. morfologikoa Aplikazio orokorrak eraikitzeko euskarria.

Bertsio hobetua (4.4.2) Aberasten:
-
Hitz anitzeko unitateak
- Aditz azpikategorizazioa

Aberasten:
-
Hitz anitzeko unitateak
- Aditz azpikategorizazioa
- Semantika

Hiztegi elektronikoak (MRD)

Hiztegi elektronikoak (MRD)

Hiztegi elektronikoak (MRD)

Morfo

Morfologiaren deskribapena

 

 

Sintaxia

Sintaxiaren deskribapena

Sintaxiaren deskribapena
- Esaldi-mugak
- Postposizioak
- Aditz azpikategorizazioa
- Menpekotasunak

Sintaxiaren deskribapena
- Estaldura zabala
- Hainbat formalismo
(Baterakuntza, CG)

Sem

Ezagutza-Base
lexiko-semantikoa.

Kontzeptu-taxonomia
Euskal WordNet

Beste hizkuntzetako corpusetatik informazioa eskuratzea
Aberasten eta hobetzen Euskal WordNet

 

Aberasten eta hobetzen Euskal WordNet
- Terminoak
- Entitateak
(izen bereziak)
- 100 mila sarrera

Tresnak

Lehen

Orain

Gero

Corpus

Corpusak sortu eta lantzeko tresnak

Corpusak sortu eta lantzeko tresnak

Corpusak sortu eta lantzeko tresnak

 

Lexiko-eskurapen automatikoa: Terminologia

 

Lexikoa

Hiztegien bertsio elektronikoak
- Ing-Eusk Morris
- Gazt-Eusk Elhuyar
- EH Ibon Sarasola

 

Lexikografoarentzako lan-postua (workbench)

Morfo
logia

Analizatzaile/Sortzaile morfologikoa

Hobetzen

 

Lematizatzaile/ Etiketatzailea

Hobetzen

 

Sintaxia

Azaleko sintaxia:
- Funtzio sintaktikoak
- Zatiak (Chunks)

Hobetzen
- Anbiguotasun
sintaktikoaren ebazpena

- Esaldi-mugak
- Postposizioak
- Aditz-azpikategorizazioa
- Menpekotasunak

Parserra
Estaldura zabala
Eraginkorra
Hainbat formalismo
- Murriztapen Gram. (CG)
- Baterakuntza
- Estatistikoak

Semantika

Adiera-desanbiguazioa (WSD)

WSD hobetzen
Ezagutza eleanitza

WSD hobetzen
Analisi semantikoa

Integrazioa

Tresnen integraziorako ingurune informatikoa


- XML estandarra
- TEI gida-lerroak

Tresna berriak integratzen
- morfosintaxia
- sintaxia

Hobetu

Aplikazioak

Lehen

Orain

Gero

Zuzentzaile ortografikoa

Bertsioak

 

 

Gramatika- eta estilo- zuzentzailea

 

Lematizazioa eta hizkuntza-bereizketa darabiltzan testuetarako
bilaketa-motorra
(search engine)

Informazio-bilaketa (Information Retrieval)

Informazio-erauzketa (Information Extraction)

Galdera-erantzutea
(Question Answering)
- hizkuntzen artekoa
Crosslingual
- Semantika erabiliz

Elhuyar Gazt-Eusk hiztegi elebidunaren integrazioa Word editorearekin

 

 

UZEIren sinonimo-hiztegiaren integrazioa Word editorearekin

 

 

Ibon Sarasolaren Euskal Hiztegiaren bertsio elektroniko aberastua

Hiztegi-kontsultarako sistema aurreratua

 

 

Baliabide lexikal heterogeneoen integrazioa

 

 

Bigarren hizkuntza ikasteko sistemak

 

 

Itzulpen-memorien sorkuntza

Itzulpen-memoriak (perpausa baino txikiago diren unitateak erabilita)

Itzulpen-laguntzak.
Integratuz:
- Hiztegiak
- Izen sintagmen itzulpena
- Esaldi sinpleen itzulpena
- Postediziorako laguntzak

Hobetzen
- Adibideetan oinarrituz
(Example based MT)
- Itzulpen-memoriak

 

 

 

Elkarrizketa-sistemak

O O O O O

 
 

 

 

 

Leave a Reply