http://jxvasxe.free.fr

analizo de vortkunmetoj per litergrupoj

eldono 3a de: 2000-06-15,
republikigo en 2008-01-29 sen korektoj pro manko de tempo
aŭtoras: ĵ. vaŝe

bazoj de la problemo

vidante neekzistan vorton kia flitpeĵo, vi probable spontanee pripensas, kio estas flito kaj kio estas peĵo. kial ne flio kaj tpeĵoflitpo kaj eĵo? probable ĉar la konsonantgrupo tp normale ne aperas en esperantaj radikoj, sed povas aperi kiel limo de du radikoj en kunmetaĵo, ekzemple en la reala vorto botpinto. kaj tion, kiel sperta parolanto, vi sentas. ĉisube mi koncize esploras, kiom tiaj tipaj radiklimoj en la internacia lingvo estas aŭtomate troveblaj, ekzemple fare de komputa programo. por ĉi tiu studo mi uzas malgrandan tekston, nome la zamenhofan proverbaron.

vortoj kaj finaĵoj

programo sufiĉe facile disigas vortojn mem, se per vortojoni celas tiujn aferojn kiuj staras inter spacoj aŭ interpunkcioj en latinlitera skribo. (fakte la tasko ne tiom facilas, kiom oni unuavide kredus, ĉar ĉirkaŭ apostrofoj, streketoj kaj similaj signoj povas estiĝi hezitoj. oni cetere ankaŭ povas dubi, ĉu tradicia disigo de vortoj ĝustas, ekzemple ĉu tre en tre granda reale estas memstara vorto, sed por la sekvo de nia temo, tiaj demandoj ne gravas.)

ankaŭ gramatikajn finaĵojn programo sen grandaj penoj distingos. finaĵoj ne multas en la lingvo internacia kaj apenaŭ povas esti malklaraj. oni nur evitu konfuzon inter:

cetere multaj el tiuj konfuzetoj solveblas per la observo de silab-nombro. vortoj kiaj mitra unusilabas, kaj el tio oni ekscias, ke ili ne estas vortoj kun finaĵoj.

trovo de kunmetaĵoj

nun, supozante ke nia programo jam trovis, ke botpinto estas vorto kun gramatika finaĵo o la demando estas, kiel aŭtomate trovi ke ĝi konsistas el bot plus pint?

kompreneble ni supozas ĉi tie, ke la kunmetaĵo ne estas jam konata en vortaro konsultebla far la programo.  en la lingvo internacia tiu supozo montriĝas sufiĉe ofte vera, ĉar kunmetaĵoj estas improvizeblaj laŭokaze, ekster tradicie fiksitaj formoj.

analizonte supozatan kunmeton, programo povas elekti inter du procedoj:

la unua procedo pacience esploros per b-otpint-o, bo-tpint-o, bot-pint-o ktp kaj trovos, ke bot-pint-o efektive entenas konatajn radikojn bot kaj pint.  avantaĝo de ĉi procedo estas, ke ĝi sukcesos en sufiĉe multaj okazoj.  danĝero estas, ke ĝi sukcesos en tro multaj okazoj pro mistranĉoj, ekzemple trovante ke batato estas participo de bati, dum ĝi fakte estas nomo de radiktubero. ĉi tiu procedo estas „tro potenca“.

la dua procedo rigardos al litergrupoj. vokaloj kutime ne tipe signas radiklimojn, krom se sama vokalo estas ripetata, kiel en praavo. precipe konsonantgrupoj efikas. en botpinto la komenca b kaj la fina t ne povas disigi radikojn.  nur tp povas. kaj efektive tp ĉiam markas la limon inter du radikoj.  avantaĝo de ĉi dua strategio estas, ke ĝi ne bezonas vortaron – malavantaĝo, ke ĝi ne trovos ĉiujn radiklimojn. ĉi tiu procedo estas „ne sufiĉe potenca“.

ni nun esploros, kiom ĉi dua procedo efikas en reala teksto, fokusante al konsonantgrupoj.

radik-enaj konsonantgrupoj laŭ vortaro

eta esploro tra piv 1988 montras, ke interne de ĝiaj radikoj

iuj grupoj aperas ene de multaj radikoj (nt rekorde en 717), aliaj ene de tre malmultaj (ekzemple fg nur en afgan). tion oni ne konfuzu kun reala ofteco en tekstoj: se ĉiuj vortoj kun grupo nt estus maloftaj vortoj, kaj male la sola vorto kun fg estus banala, povas esti ke la situacio en tekstoj renversus tion, kion la vortaro supozigis.

listiginte ĉiujn konsonantgrupojn el radikoj de ampleksa vortaro, oni povas sufiĉe sekure supozi, ke ĉiuj aliaj grupoj disigas radikojn: ĉar tp ne aperas en la listoj eltiritaj el piv, oni povas konsideri ĝin radik-disiga ĉie ajn, kie ĝi aperas en teksto.  tiu konstato sufiĉas por aŭtomate disigi du-konsonantaĵojn. por ĝuste tranĉi pli grandajn grupojn, precipe trikonsonantaĵojn, ekzemple lfl, oni tamen bezonas pli da scioj, ĉar oni devas tranĉi aŭ inter l kaj fl aŭ inter lf kaj l. tiun aspekton de la afero mi ne studos ĉi tie.

apliko al la proverbaro

resta demando estas, kiom la kono de radik-disigaj grupoj efikas fronte al reala teksto. ĉar mi disponas pri la proverbaro kun jama markiteco de ĉiuj radik-limoj, mi povas taksi la sukceson en tiu eta (15 845-vorta) samplo.

programo, kiu konsideras, ke ĉiuj konsonant-grupoj ne en pivaj radikoj estas vort-disigaj, trovas aperojn de 28 diversaj tiaj en la proverbaro:

bm kbr kfl kp kpr lfl lgl lĵ lpl lpr lsp lŝp mdl nbl nĉm nds nktf npl npr nsn nss ph rbl rfl rĵ sst sŝ zp

per ili ĝi trovas 95, tio estas 5 elcentojn el la 1987 trovindaj radik-limoj (1987 laŭ mia nombrado post kelkaj hezitoj ĉu ekzemple flugilolipharo konsistas el unu aŭ du radikoj).

en tiu aŭtomata radik-trovo ĉiu grupo havas propran rendimenton. bm aperas nur 1-foje en submetas. lpl aperas 24-foje: 1-foje en malplaĉas, 14-foje en malplena, 7-foje en malpli, 2-foje en malplene.

tiu negranda sukceso instigas al plua esploro. ĉu maloftaj en-radikaj konsonant-grupoj ne povus helpi? se ili enestas nur maloftajn radikojn, eble ili sufiĉe sekure disigas radikojn en ordinara teksto. la sekva tabelo resumas la rezultojn por grupoj kiuj aperas en pivaj radikoj nur de 0 ĝis 9-foje.

trovo de kunmetoj en la proverbaro per konsonant-grupoj
konsonant-grupoj aperas en pivaj radikoj disigas kunmetojn en la proverbaro sed eraras trovas el la trovindaj kunmetoj kumule
28 0-foje 95-foje 0-foje 5 % 5 %
14 1-foje 50-foje 3-foje 2 % 7 %
8 2-foje 57-foje 4-foje 3 % 10 %
9 3-foje 45-foje 38-foje 0 % 10 %
10 4-foje 78-foje 66-foje 1 % 11 %
3 5-foje 24-foje 10-foje 1 % 11 %
1 6-foje 8-foje 1-foje 0 % 12 %
2 7-foje 2-foje 2-foje 0 % 12 %
4 8-foje 29-foje 4-foje 1 % 13 %
4 9-foje 7-foje 4-foje 0 % 13 %

la kumula efiko de tiuj grupoj do trovigas 263 ĝustajn radik-limojn, tio estas el la trovindaj limoj 13 elcentojn. sed ili ankaŭ trovigas 132 falsajn tranĉ-lokojn.

konkludo

la konsonant-grupa strategio ne sufiĉas por aŭtomate analizi ĉiujn kunmetojn de ordinara teksto. ĝi tamen restas atentinda metodo pro pluraj kialoj:

literaturo

piv 1970
plena ilustrita vortaro de esperanto. - represo de la 2a eld. - parize: sennacieca asocio tutmonda, 1981. - 1303 p.
piv 1988
esperanto-ftp-arkivo. - ftp://ftp.stack.nl/pub/esperanto/word-lists.dir/piv.tar.Z, dosiero datumita je 1994-12-10.
zamenhof 1974
proverbaro esperanta / zamenhof ludoviko lazaro, rogister camille ed. - la laguna: j. régulo, 1974. - 167 p. - (stafeto; 82). - isbn 400-7609-6