aineistopohjainen morfologinen tokenisoija

Mon, 27 Jun 2005 12:41:40 +0000

T�m� ohjelma perustuu ajatukseen, ett� tulevien kirjaimien (foneemien, ...) ennustaminen antaa olennaista tietoa kielen morfologisesta rakenteesta.

Toteutus perustuu puhtaasti yhteen tietorakenteeseen, prefiksipuuhun. K�yt�nn�ss� kyseinen tietorakenne on kohtuullisen tilatehokas tapa pit�� muistissa jonkin aineistotekstin jokainen alamerkkijono (k�yt�nn�ss� alamerkkijonojen pituus rajoitetaan esim. 6 merkkiin tilan s��st�miseksi) sek� se, kuinka monta kertaa kyseinen merkkijono esiintyy tekstiss�.

Prefiksipuun perusteella voi laskea tehokkaasti (a) todenn�k�isyyksi� eri seuraaville merkeille aiempien merkkien (ts. merkkihistorian) perusteella; (b) todenn�k�isyyshajoamia seuraavan merkin eri vaihtoehtojen v�lill�.

Varsinainen algoritmi koostuu n�iden kahden arvon vaihtelun seuraamisesta: tod.n�k.hajoaman sek� sen, kuinka todenn�k�isen� toteutunutta merkki� pidettiin. Kun kumpi tahansa n�ist� arvoista putoaa puoleen edellisen merkin vastaavasta arvosta, katsotaan siin� kohtaa olevan morfeemin raja.

L�hdekoodi on n�ht�viss� t��ll�: http://sange.fi/~atehwa/ptmorph/prefixtree.ss

[kategoria: ohjelmointi] [kategoria: kieli]