<?xml version="1.0" encoding="ISO-8859-15"?>
<rss version="2.0"><channel>
<title>automaattinen luokittelu</title>
<link>http://sange.fi/~atehwa/cgi-bin/piki.cgi/</link>
<description>Recent changes in automaattinen luokittelu</description>
<item><title>automaattinen luokittelu</title>
<link>http://sange.fi/~atehwa/cgi-bin/piki.cgi/automaattinen%20luokittelu</link>
<guid>http://sange.fi/~atehwa/cgi-bin/piki.cgi/#1119876116</guid>
<description>&lt;p&gt;&lt;ins&gt;(tarkoituksena luokitella tekstejä siten, ettei 
luokittelualgoritmia tarvitse opettaa eikä sille tarvitse kertoa, mihin 
luokkiin luokitellaan)&lt;/ins&gt; 

&lt;p&gt;&lt;ins&gt;Lupaavilta vaikuttavat autoclass 
(http://ic.arc.nasa.gov/ic/projects/bayes-group/autoclass/) ja SOM_PAK 
(http://www.cis.hut.fi/research/som-research/nnrc-programs.shtml). 
Ongelmaksi muodostuneekin pikemmin, miten sanafrekvenssit (joihin 
ajattelin luokittelun perustaa) muutetaan järkeväksi joukoksi 
piirteitä. Itse asiassa SOM (tai jokin vastaava iteratiivinen 
tekniikka) saattaa vastata nimenomaan tähän jälkemmäiseen, autoclass 
sitten klusterien nimeämisongelmaan. Mutta selvästi SOM:nkin päälle on 
onnistuttu kyhäämään jotain tällaista, koska on olemassa WEBSOM 
(http://websom.hut.fi/websom/).&lt;/ins&gt; 

&lt;p&gt;&lt;ins&gt;Ååh. Vaikuttaa siltä, että WEBSOM-projektissa on diskreetistä 
symbolisesta datasta (sanoista) kehitetty piirrevektoreita 
määrittämällä jokaiselle sanalle satunnainen (n-ulotteinen) 
yksikkövektori. He ovat tutkineet, kuinka ortogonaalisia nämä 
yksikkövektorit ovat tutkimalla niiden pistetulojen distribuutiota eri 
ulotteisuuksilla. Vaikuttaa hyvältä: 50-ulotteisen avaruuden pitäisi 
riittää verrattain suuriinkin sähköpostimääriin. Periaatteessa tämän 
metodin voisi yhdistää suoraan autoclass-tyyppiseen luokitteluun.&lt;/ins&gt; 

&lt;p&gt;&lt;ins&gt;Outoa kyllä, WEBSOM:ssa käytetään (jos ymmärsin oikein) sanojen 
luokitteluun niiden oman yksikkövektorin sijaan niiden kontekstin 
summavektoria (jos ymmärsin oikein). On toki selvää, että sanan 
konteksti kertoo sen luokan jossain mielessä. Muodostin kuitenkin 
pienehkön koeaineiston, josta aakkostin ja käänteisaakkostin 
tekstinpätkiä nähdäkseni, millaisia sanoja esiintyy samassa 
kontekstissa. Totesin, että kontekstuaalinen luokittelu näyttää 
kertovan pikemminkin sanan syntaktisesta ja funktionaalisesta 
luonteesta (kieli, sanaluokka, puhetyyli) kuin sen semantiikasta.&lt;/ins&gt; 

&lt;p&gt;&lt;ins&gt;----&lt;/ins&gt; 

&lt;p&gt;&lt;ins&gt;Toinen ajatus oli luoda tekstien välille "linkkejä" sen 
perusteella, kuinka paljon niissä on samoja sanoja, ja sitten sirotella 
ne avaruuteen, jossa ne saavat pyöriä jonkin aikaa siten, että linkatut 
tekstit vetävät toisiaan puoleensa, mutta kaikki tekstit hylkivät 
toisiaan. Kyseessä on siis eräänlainen jatkuva (continuous) iteroitu 
n-ulotteinen SOM. Näin syntyneet koordinaatit kertonevat paljon 
paremmin dokumenttien välisestä samankaltaisuudesta kuin sanojen 
satunnaisten yksikkövektoreiden frekvenssin mukaan painotetut 
keskiarvovektorit...&lt;/ins&gt; 

&lt;p&gt;&lt;ins&gt;[kategoria: projektit] [kategoria: työkalut] [kategoria: 
ohjelmointi]&lt;/ins&gt;

</description>
<pubDate>Mon, 27 Jun 2005 12:41:56 +0000</pubDate>
</item>

</channel></rss>
