Babeslea:

Eusko Jaurlaritza

Pibotaje bidez sortutako hiztegiak

Sarrera

Gaur egun, hiztegi elebidunak oinarrizko baliabideak dira itzulpengintzan, hizkuntzen ikasketan edota hizkuntza naturalen prozesamenduaren arloko hainbat atazatan. Hala ere, hiztegi elebidun horien sorkuntza oso garestia eta neketsua da oraindik ere, eta ondorioz edozein hizkuntza bikoteren arteko hiztegi elebidunak lortzea ia ezinezko lan bihurtzen da. Are gehiago landu nahi diren hizkuntzen artean baliabide gutxiko hizkuntza bat agertzen denean.

Euskararen kasuan ere, ez da batere erraza ohikoenak ez diren hizkuntzak barneratzen dituzten hiztegi elebidunak eskuratzea edo aurkitzea, izan ere, euskara barneratzen duten hiztegi elebidun gehienak baliabide gehien duten hizkuntza handienetarako bakarrik aurki daitezke.

Testuinguru honetan, hiztegi elebidunak automatikoki edo erdi automatikoki sortzea ahalbidetzen duten teknika edota tresnen erabilpena beharrezko bihurtzen da. Bide hau jarraituz eraiki dira hain zuzen ere Hiztegien Atarian eskaintzen diren hiztegi baliabide guztiak.

Hiztegien Sorrera

Pibotaje bidezko teknikak baliagarriak dira hiztegi elebidunak modu automatikoan sortzeko. Teknika honetan, A-B eta B-C hizkuntzetan dauden hiztegiak elkartzen dira A-C hiztegi berri bat sortzeko, B hizkuntza zubi edo pibote gisa erabiliz. B hizkuntza hori hizkuntza handi bat izan ohi da (baliabide askokoa), adibidez, euskara-ingelesa + ingelesa-alemana = euskara-alemana. Tamalez, elkarketa hori egiteko prozesua ez da oztoporik gabea, zubi hizkuntza bat erabiltzeak itzulpen okerrak ere sortzen baititu, itzulpen-baliokideen adierak beti ez direlako berdinak hizkuntzen artean (ikus adibidean hegazkin eta plano ). "Zarata" hori oso handia da eta beraz, ezinbestekoa da garbiketa burutzea.

Polisemiak sortu ditzakeen erroreen adibidea

Literaturan, zarata hori garbitzeko teknika ugari proposatu dira. Horiek aukeratzeko irizpidea baliabideen eskuragarritasuna izan da, hori baita hizkuntza txikien edo baliabide gutxien duten hizkuntzen arazo nagusia.

Teknikak

Inverse Consultation (IC): Itzulpen okerren kimaketa hiztegien egituran oinarritzen da. Kalkulatzen da zenbat bide dauden elkartutako hiztegietan jatorrizko hitzetik itzulpen-hautagaietara. Zenbat eta handiagoa bide kopurua, orduan eta handiagoa baliokide zuzenak izateko probabilitatea (Adib.: hegazkin-aviĆ³n 3 bide; aldiz, hegazkin-cepillo eta hegazkin-plano bide bat). Bide kopurua minimoa ganditzen duten itzulpen-bikoteak ziurtzat jotzen dira.

IC teknikaren adibide bat

Distributional Similarity (DS): Jatorrizko hitzaren esanahia ez bezalakoa duten itzulpen-hautagaiak kimatzen dira. DSren atzean dagoen ideia hau da: esanahi bera duten hitzak testuinguru oso antzekoetan agertuko dira. Beraz, hitzen testuinguruak konparatzen ditugu, eta antzekotasun maila altuena duten itzulpen bikoteak ziurtzat markatzen ditugu. Antzekotasun maila minimoa gainditzen ez duten bikoteak zalantzazko itzulpen bezala markatzen dira.

Hiztegien ezaugarriak

Hiztegien atarian eskaintzen diren 5 hiztegi elebidunak automatikoki sortuak izan dira, jatorri eta helburu hizkuntzaren arteko lotura zubi bezala ingelesa erabiliz. Hiztegi hauen ezaugarriak ondoko taulan ikus daitezke:


Sarrera kopuruaItzulpen kopurua
Euskara-Alemana11.22931.700
Euskara-Txinera13.54783.573
Euskara-Hindi21.60857.948
Euskara-Swahili8.40412.767
Euskara-Arabiera11.48726.377

Argitalpenak

Harremanetarako: hiztegien_ataria@elhuyar.eus