Elhuyar hiztegiaren corpusa erabiliko dugu kurtso amaierarako egin behar dugun proiektua garatzeko.
Zientzia eta Teknologiaren Corpusa, edo ZT corpusa, zientzia eta teknologiaren alorreko euskarazko testu-bilduma egituratu eta etiketatua da, eta alor horietako euskararen erabilera ikertzeko baliabidea izatea du helburu nagusia. Corpus berezi edo espezializatua da, eta UPV/EHUko IXA taldeak eta Elhuyar Fundazioak elkarlanean eratu dute. http://www.ztcorpusa.net/aurkezpena.htm
CORPUSA:
- Epea:
- 1990-2002 (biak barne)
- Eremuak:
- Zientzia zehatzak
- Materiaren eta energiaren zientziak
- Lurraren zientziak
- Biziaren zientziak
- Teknologia
- Orokorra
- Bestelakoak
- Generoak:
- Oinarrizko hezkuntzako materiala
- Goi-mailako liburua
- Artikulu espezializatua
- Dibulgazio-artikulua
- Dibulgazio-liburua
- Administrazio publikoko dokumentua
- Egitura-etiketatzea:
- TEI P4 (XML)
- Automatikoa: testuaren egitura-ezaugarriak (atalburuak, atalak, azpiatalak, paragrafoak, zerrendak, taulak, oin-oharrak, irudi-oinak, eta abar.); nabarmentze-ezaugarriak (tipografikoak, hau da, letra-estiloa eta komatxo edo kakotxak)
- Eskuz landua (gune orekatuko laginak): nabarmentze-ezaugarrien balioa (enfasia, aipua, atzerri-hitza, ohiz kanpoko adiera edo erabilera ironikoa, metahizkuntza, terminoa, izen berezia…)
- Aurreprozesamendu linguistikoa (gune orekatuko laginak):
- Corpusaren lexikoi osagarria elikatzea (EDBLn eta Elhuyar Hiztegian ez dauden eta corpusean atzeman diren maiztasun handiko lema espezializatuak)
- Aldaeren normalizazioa (
<reg>etiketa) - Akats ortotipografikoen zuzenketa (
<corr>etiketa) - Etiketatze linguistikoa:
- Erabilitako baliabide lexikalak: EDBL (http://ixa2.si.ehu.es/edbl/ )+ZT corpusaren lexikoi osagarria (Elhuyar Hiztegia+corpusaren aurreprozesamendu linguistikoan bildutako lexiko espezializatua)
- Automatikoa:
- lema eta kategoria
- hitz anitzeko unitate ’seguruak’ eta marraz lotutako izen-elkarte diren lema konplexuak etiketatu dira, eta horien osagaien informazioa (lema eta kategoria) ere gorde da, horien araberako kontsultak egiteko aukera ere izateko
- testu-hitz batek analisi bat baino gehiago dituenean (anbiguoa denean), desanbiguazio automatikoaren bidez analisi bat hobesten da, baina gainerako analisiak gorde egin dira
- desanbiguazio automatikoa amaieran egin da, eskuz egindako desanbiguazio-lanetik ‘ikas’ dezan
- Eskuz landua (gune orekatuko laginak):
- desanbiguazioa: lema/kategoria mailako analisi bat baino gehiago ematen duten testu-formetarako analisi zuzena hautatu da
- prozesamendu linguistikoan izandako akatsak zuzendu dira
- aldaeren normalizazioa: EDBLn zehaztutako aldaera ez-estandarren agerraldiak aldaera estandarraren lemarekin etiketatu dira. EDBLn aldaeren estandartasuna ebazteko erabiltzen den iturria Euskaltzaindiaren Hiztegi Batua da
- Tamaina:
- Guztira: 7,6 milioi hitz (7.623.734)
- Automatikoki landuak: 6 milioi hitz (5.989.976)
- Automatikoki landuak eta gero eskuz berrikusiak eta zuzenduak: 1,6 milioi hitz (1.633.758)
- Lema-kopurua:
- Guztira: 136.792
- Eskuz egiaztatuak: 69.921
NOLAKOA DA:
Galdera
Bibliografia:http://www.ztcorpusa.net/cgi-bin/kontsulta.py
IRUDIA:
| Forma | Kop. |
|---|---|
buruzko |
4020 |
buruz |
3778 |
burua |
1553 |
buruan |
754 |
buru |
642 |
buruaren |
398 |
buruari |
335 |
buruak |
279 |
buruko |
237 |
Beste guztiak |
1143 |
Guztira |
13139 |

Oloaren aleak ez dira









Guztira