ORTZIA LOREZ ETA LURRA IZARREZ

Just another WordPress.com weblog

ELHUYAR CORPUSA Marzo 18, 2008

Archivado en: Edizio Digitala, Littera — ziortza @ 10:45 am

AURKEZPENA:ztcorpusari3qeq.jpg Buru hitza (I)

Elhuyar hiztegiaren corpusa erabiliko dugu kurtso amaierarako egin behar dugun proiektua garatzeko.

Zientzia eta Teknologiaren Corpusa, edo ZT corpusa, zientzia eta teknologiaren alorreko euskarazko testu-bilduma egituratu eta etiketatua da, eta alor horietako euskararen erabilera ikertzeko baliabidea izatea du helburu nagusia. Corpus berezi edo espezializatua da, eta UPV/EHUko IXA taldeak eta Elhuyar Fundazioak elkarlanean eratu dute. http://www.ztcorpusa.net/aurkezpena.htm

CORPUSA:

Epea:
1990-2002 (biak barne)
Eremuak:
Zientzia zehatzak
Materiaren eta energiaren zientziak
Lurraren zientziak
Biziaren zientziak
Teknologia
Orokorra
Bestelakoak
Generoak:
Oinarrizko hezkuntzako materiala
Goi-mailako liburua
Artikulu espezializatua
Dibulgazio-artikulua
Dibulgazio-liburua
Administrazio publikoko dokumentua
Egitura-etiketatzea:
TEI P4 (XML)
Automatikoa: testuaren egitura-ezaugarriak (atalburuak, atalak, azpiatalak, paragrafoak, zerrendak, taulak, oin-oharrak, irudi-oinak, eta abar.); nabarmentze-ezaugarriak (tipografikoak, hau da, letra-estiloa eta komatxo edo kakotxak)
Eskuz landua (gune orekatuko laginak): nabarmentze-ezaugarrien balioa (enfasia, aipua, atzerri-hitza, ohiz kanpoko adiera edo erabilera ironikoa, metahizkuntza, terminoa, izen berezia…)
Aurreprozesamendu linguistikoa (gune orekatuko laginak):
Corpusaren lexikoi osagarria elikatzea (EDBLn eta Elhuyar Hiztegian ez dauden eta corpusean atzeman diren maiztasun handiko lema espezializatuak)
Aldaeren normalizazioa (<reg> etiketa)
Akats ortotipografikoen zuzenketa (<corr> etiketa)
Etiketatze linguistikoa:
Erabilitako baliabide lexikalak: EDBL (http://ixa2.si.ehu.es/edbl/ )+ZT corpusaren lexikoi osagarria (Elhuyar Hiztegia+corpusaren aurreprozesamendu linguistikoan bildutako lexiko espezializatua)
Automatikoa:

  • lema eta kategoria
  • hitz anitzeko unitate ’seguruak’ eta marraz lotutako izen-elkarte diren lema konplexuak etiketatu dira, eta horien osagaien informazioa (lema eta kategoria) ere gorde da, horien araberako kontsultak egiteko aukera ere izateko
  • testu-hitz batek analisi bat baino gehiago dituenean (anbiguoa denean), desanbiguazio automatikoaren bidez analisi bat hobesten da, baina gainerako analisiak gorde egin dira
  • desanbiguazio automatikoa amaieran egin da, eskuz egindako desanbiguazio-lanetik ‘ikas’ dezan
Eskuz landua (gune orekatuko laginak):

  • desanbiguazioa: lema/kategoria mailako analisi bat baino gehiago ematen duten testu-formetarako analisi zuzena hautatu da
  • prozesamendu linguistikoan izandako akatsak zuzendu dira
  • aldaeren normalizazioa: EDBLn zehaztutako aldaera ez-estandarren agerraldiak aldaera estandarraren lemarekin etiketatu dira. EDBLn aldaeren estandartasuna ebazteko erabiltzen den iturria Euskaltzaindiaren Hiztegi Batua da
Tamaina:
Guztira: 7,6 milioi hitz (7.623.734)
Automatikoki landuak: 6 milioi hitz (5.989.976)
Automatikoki landuak eta gero eskuz berrikusiak eta zuzenduak: 1,6 milioi hitz (1.633.758)
Lema-kopurua:
Guztira: 136.792
Eskuz egiaztatuak: 69.921

NOLAKOA DA:

Galdera

…ien nola garraiatzen zuten soinua izurdeek azaletik <span onmouseout=”tip_it(0,”,”,”,”)” onmouseover=”tip_it(1,’Automatikoa, analisi anitzekoa, automatikoki hautatua = bilatutakoa’,'#E5E49A’,’burutu aditza – buru izena‘,’#C0C0C0′)”>buru barneko belarrietaraino, baina gaitasun horren misterioa ar…
… basora, bi tronpetari tronpetei puzka dituztela <span onmouseout=”tip_it(0,”,”,”,”)” onmouseover=”tip_it(1,’Automatikoa, analisi anitzekoa, automatikoki hautatua = bilatutakoa’,'#E5E49A’,’burutu aditza – buru izena‘,’#C0C0C0′)”>buru. Basoan haritz-abar hostotsuak ebakitzen dituzte, eta horie…
…tik sudur eta ahoraino etorriz. Bestea da baratxuri <span onmouseout=”tip_it(0,”,”,”,”)” onmouseover=”tip_it(1,’Automatikoa, analisi anitzekoa, automatikoki hautatua = bilatutakoa’,'#E5E49A’,’burutu aditza – buru izena‘,’#C0C0C0′)”>buru bat, bizitaraino zuritua, hartu eta umetokiaren barnean eza…
#objektua#Oloaren aleak ez dira <span onmouseout=”tip_it(0,”,”,”,”)” onmouseover=”tip_it(1,’Automatikoa, analisi anitzekoa, automatikoki hautatua = bilatutakoa’,'#E5E49A’,’burutu aditza – buru izena‘,’#C0C0C0′)”>buru batean agertzen, sorta moduan baizik. Alea, aldiz, gariaren…
Beste <span onmouseout=”tip_it(0,”,”,”,”)” onmouseover=”tip_it(1,’Eskuz zuzendua’,'#A1E6B5′,’buru izena‘,’#C0C0C0′)”>buru batean, Edouardo Manet: sortsez Kubatarra, handik joan-eta …
…desberdinean prestatzea izango da, alegia, famili <span onmouseout=”tip_it(0,”,”,”,”)” onmouseover=”tip_it(1,’Automatikoa, analisi anitzekoa, automatikoki hautatua = bilatutakoa’,'#E5E49A’,’burutu aditza – buru izena‘,’#C0C0C0′)”>buru batek erabiltzekoa, diru-hornidurak egitekoa edota elokuent…
…desberdinean prestatzea izango da, alegia, famili <span onmouseout=”tip_it(0,”,”,”,”)” onmouseover=”tip_it(1,’Automatikoa, analisi anitzekoa, automatikoki hautatua = bilatutakoa’,'#E5E49A’,’burutu aditza – buru izena‘,’#C0C0C0′)”>buru batek erabiltzekoa, diru-hornidurak egitekoa edota elokuent…
…una, eta, neurriz, orratz buru baten eta poxpolu <span onmouseout=”tip_it(0,”,”,”,”)” onmouseover=”tip_it(1,’Automatikoa, analisi anitzekoa, automatikoki hautatua = bilatutakoa’,'#E5E49A’,’burutu aditza – buru izena‘,’#C0C0C0′)”>buru baten artekoak dira. Hegodunak edo hego gabekoak izan daite…
…autza itxurakoa, antenaduna, eta, neurriz, orratz <span onmouseout=”tip_it(0,”,”,”,”)” onmouseover=”tip_it(1,’Automatikoa, analisi anitzekoa, automatikoki hautatua = bilatutakoa’,'#E5E49A’,’burutu aditza – buru izena‘,’#C0C0C0′)”>buru baten eta poxpolu buru baten artekoak dira. Hegodunak edo h…

Bibliografia:http://www.ztcorpusa.net/cgi-bin/kontsulta.py

IRUDIA:

Forma Kop.
 buruzko 4020
 buruz 3778
 burua 1553
 buruan 754
 buru 642
 buruaren 398
 buruari 335
 buruak 279
 buruko 237
 Beste guztiak 1143
 Guztira 13139

Guztien testuinguruak batera

 

Leave a Reply