<?xml version="1.0" encoding="ISO-8859-15"?>
<rss version="2.0"><channel>
<title>aineistopohjainen morfologinen tokenisoija</title>
<link>http://sange.fi/~atehwa/cgi-bin/piki.cgi/</link>
<description>Recent changes in aineistopohjainen morfologinen tokenisoija</description>
<item><title>aineistopohjainen morfologinen tokenisoija</title>
<link>http://sange.fi/~atehwa/cgi-bin/piki.cgi/aineistopohjainen%20morfologinen%20tokenisoija</link>
<guid>http://sange.fi/~atehwa/cgi-bin/piki.cgi/#1119876100</guid>
<description>&lt;p&gt;&lt;ins&gt;Tämä ohjelma perustuu ajatukseen, että tulevien kirjaimien 
(foneemien, ...) ennustaminen antaa olennaista tietoa kielen 
morfologisesta rakenteesta.&lt;/ins&gt; 

&lt;p&gt;&lt;ins&gt;Toteutus perustuu puhtaasti yhteen tietorakenteeseen, 
prefiksipuuhun. Käytännössä kyseinen tietorakenne on kohtuullisen 
tilatehokas tapa pitää muistissa jonkin aineistotekstin jokainen 
alamerkkijono (käytännössä alamerkkijonojen pituus rajoitetaan esim. 6 
merkkiin tilan säästämiseksi) sekä se, kuinka monta kertaa kyseinen 
merkkijono esiintyy tekstissä.&lt;/ins&gt; 

&lt;p&gt;&lt;ins&gt;Prefiksipuun perusteella voi laskea tehokkaasti (a) 
todennäköisyyksiä eri seuraaville merkeille aiempien merkkien (ts. 
merkkihistorian) perusteella; (b) todennäköisyyshajoamia seuraavan 
merkin eri vaihtoehtojen välillä.&lt;/ins&gt; 

&lt;p&gt;&lt;ins&gt;Varsinainen algoritmi koostuu näiden kahden arvon vaihtelun 
seuraamisesta: tod.näk.hajoaman sekä sen, kuinka todennäköisenä 
toteutunutta merkkiä pidettiin. Kun kumpi tahansa näistä arvoista 
putoaa puoleen edellisen merkin vastaavasta arvosta, katsotaan siinä 
kohtaa olevan morfeemin raja.&lt;/ins&gt; 

&lt;p&gt;&lt;ins&gt;Lähdekoodi on nähtävissä täällä: 
http://sange.fi/~atehwa/ptmorph/prefixtree.ss&lt;/ins&gt; 

&lt;p&gt;&lt;ins&gt;[kategoria: ohjelmointi] [kategoria: kieli]&lt;/ins&gt;

</description>
<pubDate>Mon, 27 Jun 2005 12:41:40 +0000</pubDate>
</item>

</channel></rss>
