Määrämuotoinen verkkosisältö

hwechtla-tl: Määrämuotoinen verkkosisältö

Mikä on WikiWiki?
nettipäiväkirja
koko wiki (etsi)
viime muutokset

Yritin kovasti keksiä tälle sivulle otsikkoa, koska tarkoittamalleni asialle ei ole järkevää nimeä. Tämä on hyvin tunnettu ilmiö, jota kutsutaan mm. web 2.0:ksi ja ties miksi. Periaatteessa kyse on kuitenkin tiedon uudelleenkäytettävyydestä.

Web on ollut alusta asti vallankumouksellinen siinä mielessä, että se mahdollistaa tietosisältöjen tuottamisen vailla näkemystä siitä, mihin niitä tullaan käyttämään. Esimerkiksi, kun minä kirjoitan nämä tekstit, minulla ei ole hajuakaan, tuleeko niistä olemaan jotain hyötyä, ja jos, minkälaista. Kaikki tämä tieto on vain tarjolla, odottamassa, kunnes joku katsoo hyväksi lukea sen. Ero perinteisen (staattisen) webin ja uuden (dynaamisen) webin välillä on se, että staattisessa webissä sivuja mennään lukemaan tarpeen ilmaantuessa ja dynaamisessa taas siitä syystä, että luotetaan, että sivulle on ilmestynyt jotain lukemisen arvoista. Jos kuulut niihin harvoihin, jotka seuraavat tätä nettipäiväkirjaa, käytät sivujani dynaamisesti, kun taas jos kuulut niihin tuhansiin, jotka tulevat tänne hakukoneella, käytät sivujani staattisesti. Itse en ole itse asiassa kovin ihastunut dynaamiseen käyttöön: http://ircquotes.net/ ja tunnustusten luola ovat suunnilleen ainoat dynaamiset sivustot, joita jaksan seurata yhteisösivustojen lisäksi, ja niitäkin kaikkia laiskasti.

Joka tapauksessa, kun tarpeeksi tietoa on tarjolla, tapahtuu jotain omituista: tuon tiedon yleisestä hahmosta voi alkaa kehitellä uutta tietoa. Hakukoneet ovat esimerkki tästä: ne ovat valtavia indeksikokoelmia, joissa voi listata sivuja sen mukaan, mitä sanoja ne sisältävät, sen sijaan että listattaisiin sanoja sen mukaan, millä sivulla ne ovat. Alkuperäisen webin sielu olivat linkit, ja hakukoneiden tulo muutti kaiken. Olemme yhä vaiheessa, jossa hakukoneet ovat verkon sielu. Tällä hetkellä edistys verkossa on sitä, että hakukoneet keksivät jonkin uuden tavan suodattaa tiivistettyä tietoa tarjolla olevasta tietosisällöstä. Google (PageRank) nousi keskeiseksi tästä syystä.

Nyt kuitenkin tiedon käytettävyyttä rajoittaa se, että se on suunnattu ihmisille. Jokaisella sivustolla on oma käyttöliittymänsä. Hintatietojen haku verkosta on vaivalloista, koska se edellyttää jokaisen lafkan sivuston käytön opettelemista; yhtenäistetyt aikataulu- ja hintavertailukäyttöliittymät perustuvat enimmäkseen tietoon, jonka joko yhtenäisjärjestelmän tuottaja kaivaa esiin palveluntarjoajien (siis liikennöijien, kauppiaitten jne.) sivuilta tai tietokannoista erillisellä sopimuksella, tai sitten palveluntarjoajat joutuvat syöttämään tietonsa yhtenäisjärjestelmään, jolloin syntyy valtakeskittymiä (tämä on periaatteessa sama kuin hakukoneongelma). Kaiken kaikkiaan sellaiset palvelut kuin Saksan rautateiden euroopanlaajuinen reittiopas (http://reiseauskunft.bahn.de/bin/query.exe/en) tai http://www.flights.com eivät voi olla yhtä luotettavia kuin hakukoneet, koska hakukoneet päivittyvät automaattisesti. Ongelma on se, että näitä tietoja ei voi uudelleenkäyttää automaattisesti, koska ei ole tapaa julkaista niitä koneiden ymmärtämässä muodossa.

RSS on tuonut dynaamiselle sisällölle omat lisäpalvelunsa, joita on paljon. Se on aika saavutus, koska RSS muuntaa vain hyvin vähäisen osan tiedosta konekäsiteltäväksi: tiedon siitä, että jotain uutta tietoa on olemassa. Lisäksi RSS voi sisältää jotain metadataa tästä uudesta tiedosta, mutta se ei ole pakollista ja jollei tätä tietoa ole tarjolla, pitää RSS-palveluiden (RSS-feedejä) toimia ilman.

Muuten määrämuotoisen tiedon levittäminen on tähän mennessä keskittynyt ontologioihin. Tämä on periaatteessa oikein, mutta ontologioiden sisältö ja esimerkit ovat usein niin korkealla abstraktiotasolla, että ihmisillä alkaa olla vaikeuksia tajuta, miten tätä tietoa on tarkoitus käyttää uudelleen. Mihin tietoon voi esimerkiksi yhdistää lääketieteen käsitekartat siten, että siitä on kouriintuntuvaa hyötyä loppukäyttäjälle? Ei, hyödyn on oltava välitöntä. Sitä varten tarvitaan määrämuotoisen tiedon aiheita. Yksi tieto, mihin määrämuotoista levitystapaa on kokeiltu, on FOAF (friend-of-a-friend): eri ihmisten julkaisemista "kaveritiedoista" voidaan laskea "kaveriverkkoja". Mutta tämä ei ole tarpeeksi vakavasti otettavaa: on paljon palkitsevampaa liittyä IRC-gallerian, MySpacen tai facebookin yhteisöihin, koska tulos näkyy heti ja asiaan liittyy muutakin sisältöä kuin ystäväverkon rakenne.

Minäpä kerron, millaista tietoa olisin halunnut miljoona kertaa määrämuodossa: henkilöiden yhteystietoja, paikkojen sijainteja, liikennevälineiden aikatauluja, liikkeiden aukioloaikoja, tuotteiden hintoja, vaihtuvia palveluita kuten lounaspaikkojen ruokalistoja, tapahtumia kuten kokouksia ja konsertteja sekä palveluntarjoajia (esimerkiksi majoituspaikkoja). Tekniikka olisi hyvin yksinkertaista: samaan tapaan kuin sivuihin voi merkitä meta-tagilla että sivun muutokset voi saada RSS:nä täältä ja täältä, niihin voisi linkittää meta-tagilla tietynmuotoisia tiedostoja, jotka sisältävät tietoa henkilöistä, paikoista, palveluista ja niin edelleen; tietoa, joka halutaan julkaista. Jokaisen firman sivustolla olisivat yhteystiedot, paitsi yhtenä www-sivuna muiden joukossa, myös määrämuotoisena, konekäsiteltävänä tietona.

Mitä hyötyä tästä kaikesta olisi? Yritäpä kuvitella. Puhelinluettelot voitaisiin korvata hakukoneilla, jotka indeksoivat henkilöiden yhteystietoja. Google Earthiin voisi tulla automaattisesti tiedot siitä, mitä sosiaalisia konstruktioita (kuten tapahtumia tai liikkeitä) on tietyllä alueella. Omalla hakukoneellaan voisi kysellä, mitä tapahtuu sen paikan lähistössä, jossa sattuu olemaan. Kaupungit voisivat julkaista tietoa siitä, mikä osoite vastaa mitäkin koordinaattia - tätä tietoa voisivat käyttää kaikki karttapalvelut. Kaikki liikenneyhteydet pystyttäisiin keräämään suuriin, maailmanlaajuisiin reittipalveluihin. Tuotteet voisi kilpailuttaa ilman, että tarvitsee tehdä tarjouspyyntökierrosta - jos ette ole kokeilleet, voin vakuuttaa, että se on valtava työ. Lounaspaikan voisi etsiä ruokalajin perusteella sen sijaan, että käy läpi monen lounaantarjoajan sivut katsoakseen, mitä ne tarjoavat. Uusien palveluiden ja tapahtumien lanseeraaminen helpottuisi, koska ne tulisivat hakukoneiden tietoon tarjotun, määrämuotoisen tiedon kautta.

Näitä kuvitelmia pyörittelee varmaan aika moni. Tällaisia ehdotuksia on varmasti olemassa. Mutta missä?

Rakas Ozone-ystäväni työskentelee tällaisten asioiden parissa, joten häneltä sain monta hyvää vihjettä asiasta. Ozone osaisi kertoa mielenkiintoisemmin siitä, kuinka RDF-pohjaiset "raskaat" kuvaustiedostot kilpailevat suosiosta attribuuttipohjaisten "kevyiden" mikroformaattien (http://www.microformats.org/) kanssa. Listaan tähän kuitenkin joitain perusasioita.

Lokatiivisen datan levittämiseen kelpaa hyvin GoogleEarthin KML-formaatti. Tämä XML-muoto, johon en ole tarkemmin tutustunut, tarjoaa ilmeisesti varsin monipuoliset mahdollisuudet tietojen antamiseen nimien ja linkkien antamisesta aina maastonmuotoihin asti. Koordinaattien merkitsemiseen on lisäksi olemassa geo-niminen formaatti, mutten tiedä, mitä se sallii kertoa näistä koordinaateista.

Henkilötietojen antamiseen toimii FOAF, jonka erilaiset laajennokset sallivat kertoa erilaisia yhteystietoja ynnä muuta. FOAF-tiedostomuotoa on laajennettu moneen eri suuntaan, eli se saattaa olla riittävän laaja ylipäänsä henkilöihin liittyville tiedoille. En tiedä, koska en ole tutkinut.

Erityisen maininnan ansaitsee sioc, joka on FOAF-laajennos (?) erilaisten foorumien ja blogien kuvaamiseen. Periaatteessa FOAF:lla voisi saada aikaan sen, että ihmisillä on yhtenäinen identiteetti yli verkon eri palveluiden ainakin siellä, missä he niin haluavat. (Tähän pyrkii myös OpenID.)

Tapahtumista ja muista ajastetuista tiedoista voi levittää tietoa muodossa nimeltä RDF-calendar. Tälle ei taida olla käytännössä mitään automaattista prosessointia, ainakaan vielä.

Enimmäkseen nämä RDF-muodot tarjotaan julkisiksi linkittämällä ne muista www-sivuista <link>-tageilla. Mikroformaatit taas on "punottu" muuhun HTML:ään; ne ovat lisätageja tai tagien lisäattribuutteja. RDF:n ja attribuuttien lähentämiseen toisiinsa on ainakin kaksi lähestymistapaa: RDFa, joka on RDF:n esitysmuoto attribuutteina, ja W3C:n GRDDL, jossa jokaiseen mikroformaattiin liitetään XSL-ohje, joka osaa muuntaa sen RDF:ksi. Jos olen ymmärtänyt oikein, kaikelle RDFa:lle pitäisi riittää yksi XSL-ohjelma.

Tämäkin on mielenkiintoinen hanke: http://schema.org/ määrittää koneluettavia formaatteja kaikenlaiselle. Vanhempi vastaava on http://microformats.org/

kommentoi (viimeksi muutettu 25.07.2015 02:37)