automaattinen luokittelu

Mon, 27 Jun 2005 12:41:56 +0000

(tarkoituksena luokitella tekstej� siten, ettei luokittelualgoritmia tarvitse opettaa eik� sille tarvitse kertoa, mihin luokkiin luokitellaan)

Lupaavilta vaikuttavat autoclass (http://ic.arc.nasa.gov/ic/projects/bayes-group/autoclass/) ja SOM_PAK (http://www.cis.hut.fi/research/som-research/nnrc-programs.shtml). Ongelmaksi muodostuneekin pikemmin, miten sanafrekvenssit (joihin ajattelin luokittelun perustaa) muutetaan j�rkev�ksi joukoksi piirteit�. Itse asiassa SOM (tai jokin vastaava iteratiivinen tekniikka) saattaa vastata nimenomaan t�h�n j�lkemm�iseen, autoclass sitten klusterien nime�misongelmaan. Mutta selv�sti SOM:nkin p��lle on onnistuttu kyh��m��n jotain t�llaista, koska on olemassa WEBSOM (http://websom.hut.fi/websom/).

��h. Vaikuttaa silt�, ett� WEBSOM-projektissa on diskreetist� symbolisesta datasta (sanoista) kehitetty piirrevektoreita m��ritt�m�ll� jokaiselle sanalle satunnainen (n-ulotteinen) yksikk�vektori. He ovat tutkineet, kuinka ortogonaalisia n�m� yksikk�vektorit ovat tutkimalla niiden pistetulojen distribuutiota eri ulotteisuuksilla. Vaikuttaa hyv�lt�: 50-ulotteisen avaruuden pit�isi riitt�� verrattain suuriinkin s�hk�postim��riin. Periaatteessa t�m�n metodin voisi yhdist�� suoraan autoclass-tyyppiseen luokitteluun.

Outoa kyll�, WEBSOM:ssa k�ytet��n (jos ymm�rsin oikein) sanojen luokitteluun niiden oman yksikk�vektorin sijaan niiden kontekstin summavektoria (jos ymm�rsin oikein). On toki selv��, ett� sanan konteksti kertoo sen luokan jossain mieless�. Muodostin kuitenkin pienehk�n koeaineiston, josta aakkostin ja k��nteisaakkostin tekstinp�tki� n�hd�kseni, millaisia sanoja esiintyy samassa kontekstissa. Totesin, ett� kontekstuaalinen luokittelu n�ytt�� kertovan pikemminkin sanan syntaktisesta ja funktionaalisesta luonteesta (kieli, sanaluokka, puhetyyli) kuin sen semantiikasta.

----

Toinen ajatus oli luoda tekstien v�lille "linkkej�" sen perusteella, kuinka paljon niiss� on samoja sanoja, ja sitten sirotella ne avaruuteen, jossa ne saavat py�ri� jonkin aikaa siten, ett� linkatut tekstit vet�v�t toisiaan puoleensa, mutta kaikki tekstit hylkiv�t toisiaan. Kyseess� on siis er��nlainen jatkuva (continuous) iteroitu n-ulotteinen SOM. N�in syntyneet koordinaatit kertonevat paljon paremmin dokumenttien v�lisest� samankaltaisuudesta kuin sanojen satunnaisten yksikk�vektoreiden frekvenssin mukaan painotetut keskiarvovektorit...

[kategoria: projektit] [kategoria: ty�kalut] [kategoria: ohjelmointi]