(toiminnot)

hwechtla-tl: Hakukoneongelma

Kierre.png

Mikä on WikiWiki?
nettipäiväkirja
koko wiki (etsi)
viime muutokset


Www on demokraattinen (tai oikeastaan anarkistinen) media, ja kuten useimmat tällaiset aidosti hajautetut verkot, sen rakenne on vahvasti keskittynyt ja sosiokraattinen (eli jonkinlainen "vetovoimaisuus", mitä se kenellekin tarkoittaakaan, hallitsee sen keskittymistä). Tähän kaaokseen tuovat jonkinlaista järjestystä hakukoneet, jotka tarjoavat keinon ohittaa sosiokraattisen rakenteen ja tehdä suoraan aihehakuja siitä, mikä kiinnostaa. Www:ssa tekstintuotanto on siis anarkistista luonnostaan, mutta tekstinkulutuksen (luku ja muu käyttö, esim. lainaukset) pitää anarkistisena vain tämä teknologia.

No hyvä. Hakukoneiden luotettavuutta tasapuolisena tietolähteenä uhkaavat tahallisesti aiheutetut vinoumat - esim. sisällönsuodatukset, mainokset (korotetut hakuarvot), tai muut esim. hakukoneyhtiön taloudellisista intresseistä aiheutuvat paineet manipuloida hakujen tuloksia. Käsintehdyt vinoumat ovat harmillisia ja salakavalia, mutteivät koskaan pysty voittamaan informaatiotulvan määrää (esim. yritys tehdä mahdottomaksi löytää uusnatsisivuja jollain hakukoneella muistuttaa mahdottomuudeltaan yritystä estää kreationistisia papereita päätymästä tieteellisiin bibliografioihin). Tämä on hakukoneiden uniikki ominaisuus, kun taas esim. portaalit ovat hyvin haavoittuvaisia yrityksen edunajamiselle, sillä niiden sisältö ei ole automaattisesti muodostettua muutenkaan.

Sen sijaan automaattisesti muodostetut vinoumat ovat jonkinlainen vaara hakukoneillekin. Esimerkiksi google yrittää parantaa hakujen tulosten relevanssia antamalla korkeamman hakuarvon sivuille, joihin on paljon linkkejä. Tämä on kieltämättä hieno ominaisuus ja tekee googlesta arvokkaamman hakukoneena, mutta samalla se palauttaa sosiokratian anarkismin tilalle tekstinkulutuksessa. Erona on vain se, että meillä on nyt useita sosiokraattisia hierarkioita aihepiireittäin. On kuviteltavissa, että äärimmäisen "hyvää palvelua" tarjoava hakukone itse asiassa sulkee pois muita kuin valtavirtaisia sivuja.

Asiaa pahentaa se, että esim. googlen sivustonrankkausalgoritmi (PageRank) on suuri liikesalaisuus, koska se vaikuttaa olennaisesti yritysten näkyvyyteen hauissa. Hakufirmoilla on siis toisaalta jonkinlainen moraalinen velvollisuus pitää toimintatapansa salaisina, toisaalta yrittää todistella käyttäjilleen, että haku on oikeudenmukainen. Kuitenkin hakukoneiden käyttämät algoritmit vaikuttavat käytännössä siihen, kuinka sivustoja tuotetaan.

Tästä tullaan toiseen, paljon vakavampaan ongelmaan. Hakukoneet itse ovat nimittäin suunnattomia valtakeskittymiä. Niiden valta on kasautuvaa kahdesta syystä. Ensinnäkin, ja mikä on tärkeämpää, www:ssa on valtava määrä sivustoja, joihin ei ole linkkiä mistään. Näiden sivustojen päätyminen hakukoneisiin on kiinni siitä, ilmoitetaanko ne sinne erikseen. Luonnollisesti sivusto tyypillisesti ilmoitetaan vain näkyvimpiin hakukoneisiin, mikä tekee niistä entistä arvokkaampia loppukäyttäjän kannalta. Toiseksi, haut vaativat tekniikkaa ja tehokkaita koneita, ja niin kauan kuin hakukoneiden kilpailu on suljettujen teknologioiden kilpajuoksua, haut kasautuvat valtavasti muutamalle parhaalle (tai eniten mainostetulle) hakukoneelle.

Ihanteellisessa tilanteessa jokaisella (organisaatiolla) voisi olla oma hakukoneensa. Jonkinlaisia edellytyksiä tähän on, tarjolla on esimerkiksi paljon avoimia ohjelmistoja, jotka toteuttavat monipuolisia hakukoneita. Nämä ohjelmistot todennäköisesti kehittyisivät kaupallisista vastineistaan nopeasti ohi, ellei todellisen hakukoneen perustaminen ja ylläpito olisi niin suuri vaiva. Mutta koska se on (tarvitaan hirveästi kovalevyä ja aikaa, että alkaa saada tuloksia), hakukoneohjelmistojen on vaikeaa saada sellaista suurta kehittäjäjoukkoa taakseen kuin mitä on useimmilla muilla avoimilla ohjelmistoilla. Toinen ongelma on se, että monet avoimien ohjelmistojen kehittäjät eivät tiedosta tätä "hakukoneongelmaa".

Suurin ongelma on nettitiedon keruussa, ja sen vaikein ongelma on mahdollisimman suuren sivustomäärän löytäminen. Minusta todellisen anarkistisen nettihaun toteuttaminen edellyttää hajautettua tietokantaa, joka sisältää kaiken tarpeellisen tiedon huippuluokan hakukoneen perustamiseksi. Mutta koska www-sivun jokainen osa (osoite, otsakkeet, koko sisältö, ja esim. kuinka nopeasti sivun saa haetuksi tiettyyn osaan maailmaa) on potentiaalisesti hyödyllistä tietoa hakukoneille, ei ole mitään järkeä kerätä tätä tietoa. Lisäksi tietokannan olisi varmistettava, että kaikilla on yleinen ja yhtäläinen mahdollisuus lisätä sinne materiaalia, ettei sieltä pysty epäreilusti poistamaan materiaalia, ettei sitä voi tehdä käyttökelvottomaksi häiriköinnillä, ettei siinä voi saavuttaa epäreilua etua (esim. mainonnalla) jne.

Ehdotan, että tämä tietokanta olisi yksinkertaisesti duplikoitava lista osoitteista (URL:sta), jotka ovat olemassa (hakukoneratkaisun toteutus). Kuka tahansa voisi ilmoittaa lisää osoitteita siihen, ja sitä pitäisivät yllä palvelimet, jotka levittäisivät toisilleen tiedon kaikista uusista osoitteista. Sama osoite ei voisi olla listassa kahdessa kohtaa. Listasta poistamiseen olisi kaksi perustetta: (1) sivua ei ole olemassa tai (2) sivu on identtinen jonkin toisen sivun kanssa. Näitä listoja voisi julkaista erinäisillä www-sivuilla, jolloin niihin ilmoittautumalla yleensä päätyisi myös kaikkiin hakukoneisiin, jotka eivät seuraa näitä listoja.

Tämä on niin yksinkertainen ajatus, että on kumma, jos kukaan ei ole koskaan keksinyt sitä. Mutta niin se näyttää olevan: jos teet backlink-haun mielivaltaiselle sivulle, siihen osoittavat sivut ovat aina todellisia sivuja...

Tällä projektilla on toteutuessaan sellainen sivuseuraus, että se tappaa googlen. Jos joka puolelle maailmaa ilmestyy sivustoja, joiden ainoa tarkoitus on listata jokikinen sivu ympäri maailmaa, googlen algoritmi on vaikeuksissa...

Mitä mieltä olette?

kategoria: politiikka kategoria: projektit


kommentoi (viimeksi muutettu 20.04.2012 09:33)