(toiminnot)

hwechtla-tl: Metatiedot, osa 1: mistä puhutaan?

Kierre.png

Mikä on WikiWiki?
nettipäiväkirja
koko wiki (etsi)
viime muutokset


Kunnon metatiedot ovat keskeisiä tiedon laajan hyödynnettävyyden kannalta. Puhe metatiedoista nousee kuitenkin helposti sellaisiin sfääreihin, etteivät keskustelun osapuolet ymmärrä toisiaan eivätkä aina itsekään tiedä, mitä tarkoittavat. Tässä kirjoituksessa käsittelen metatietoja yleisellä tasolla, mutta pyrin myös antamaan esimerkkejä, jotka konkretisoivat asiaa.

-- kirjoitettu: tiistai 22. kesäkuuta 2010, 15.05 -- viimeisin muutos: keskiviikko 23. kesäkuuta 2010, 11.00

Määrittely ensiksi: metatieto tarkoittaa tiedon tai minkä tahansa aineiston kuvailua.  Esimerkiksi ilmaus "tekijänoikeuslaki koskettaa jokaista kansalaista" on metatietoa, koska se on kuvaus tiedon, tässä tapauksessa tekijänoikeuslain, ominaisuuksista, tässä tapauksessa sosiaalisesta vaikutusalueesta.  Kohdetiedon ei tarvitse olla tulkittavissa, se voi olla raakaa dataa: "tiedosto shakki.jpeg on kuva" ja "kuvasta shakki.jpeg puolet on valkoista" ovat myös metatietoja.  Jopa sellainen yleisluontoinen toteamus kuin "Kärpästen herra on minusta poliittinen kirja" on nähtävissä metatiedoksi.

Kuten yllä olevista esimerkeistäkin näkyy, metatietoa voi antaa monella tasolla ja monesta näkökulmasta.  Seuraavassa on esimerkkejä eri tyyppisistä metatiedoista ja niiden kohteena olevista tiedoista.

      metatieto            kohdeaineisto           tyyppi            säilytystapa

valiokuntakäsittely     kehitysmaiden         käsittelytieto:   tietokanta Suomen
                        tukeminen             tieto siitä,      eduskunnan
                        ruokaturvahaasteessa  mitä              TRIP-järjestelmässä,
                        -tiedonanto           tiedonannolle on  tiedot linkitetty esim.
                                              tehty             käsittelykokousten
                                              hallinnollisesti  pöytäkirjoihin
                                              missäkin
                                              vaiheessa

tietojärjestelmäkuvaus  SYKE:n                kuvaileva tieto:  tekstidokumentti SYKE:n
                        meluntorjunnan        tiivistelmä       julkaisujärjestelmässä,
                        tietojärjestelmä      sisällöstä        linkitetty
                                                                tietojärjestelmää
                                                                koskeviin asiakirjoihin
                                                                (lupasopimuksiin yms.)

termimääritelmä         kaikki                selittävä tieto:  TK:n metatietopankki,
aineopiskelijalle       tilastokeskuksen      aineiston         jossa tilastojen
                        tilastot, joissa      rakennetta tai    kuvaukset on linkitetty
                        termi esiintyy: esi-  merkitystä        käsitemäärittelyihin ja
                        ja peruskouluopetus,  tarkentava tieto  käsitteet niitä
                        lukiokoulutus ja                        käyttäviin tilastoihin
                        oppilaitosten
                        aikuiskoulutus

Assyria-hakusana        kaikki, mikä käyttää  selittävä tieto:  YSA:n tietokanta, jossa
                        yleistä suomalaista   aiheita           asiasanat on linkitetty
                        asiasanastoa (YSA:a)  luokitteleva ja   synonyymeihinsa ja
                        asioiden ja           niiden välisiä    kieliversioihinsa
                        käsitteiden           yhteyksiä
                        luokitteluun,         määrittävä tieto
                        esimerkiksi
                        kirjastojen tiedot
                        Gilgamesh-eepoksesta
                        jotka puolestaan
                        ovat varsinaisen
                        kirjan metatietoa

Tiedostomuoto (HTML),   CSC:n etusivu         tekninen tieto    CSC:n
merkistö (UTF-8),                                               julkaisujärjestelmä
tiedoston koko (26281
tavua)

tieto siitä, mitä       tämä blogikirjoitus   käsittelytieto:   Panun pää
blogikirjoitukselle                           tieto
pitää seuraavaksi                             kirjoituksen
tehdä                                         tämänhetkisestä
                                              tilasta ja
                                              suunnitelma                                
                                              tulevasta
                                              käsittelystä

Taulukosta huomaa, että metatiedon ei tarvitse edes kirjoitettaessa liittyä tiettyyn aineistoon, vaan eri aineistot voivat joiltain osin käyttää etukäteen annettuja metatietoja, jos ne soveltuvat aineistolle eli pitävät paikkansa aineiston suhteen. Mitä tulee säilytystapaan, tietotekniset metatietojen tallennusratkaisut korostuvat, koska halusin valita esimerkkejä, jotka ovat jollain tavoin saavutettavissa selaimella.

Kun kerran metatiedolla tarkoitetaan näin monimuotoisia asioita, pitäisi kaikille olla selvää, että metatieto käsitteenä on useisiin keskusteluihin liian yleisluontoinen.  Kun esimerkiksi vaaditaan julkisille tiedoille parempia metatietoja, tuskin kukaan tarkoittaa sillä tietokantaa, jossa on kiljoona tietoa tyyliin "Panu ei tykkää tekijänoikeuslaista" ja "eduskunnan etusivulla on 160 k-kirjainta".  Metatietoja suunniteltaessa onkin pakosti mielessä jokin visio siitä, mihin metatietoja tullaan käyttämään.  Esimerkiksi kirjastot keräävät teosten metatietoja tietokannoiksi helpottaakseen teosten löytämistä.  Kyselyaineiston metatiedoilla pyritään usein myös tukemaan aineiston tulkintaa.  Toisaalta asiakirjanhallintajärjestelmissä saatetaan pitää sellaisia asiakirjojen metatietoja, joita ei ole missään muualla ja jotka eivät saa hävitä: esimerkiksi asiakirjan vastuuhenkilöä, käsittelyhistoriaa ja julkisuusastetta.

Mutta vaikka metatietoja kirjoitettaessa onkin yleensä mielessä ainakin jokin metatietojen käyttötarkoitus, toisaalta metatiedoilla pyritään usein vastaamaan myös tuleviin, tuntemattomiin tarpeisiin.  Periaatteessahan metatietojen rikastuttaminen ei ole keneltäkään pois, vaan jokainen lisätty metatieto on tulevaisuudessa potentiaalisesti hyödynnettävä tieto, vaikka se vaikuttaisi täysin epäolennaiselta: esimerkiksi kuvailtavan aineiston tuottajan oman henkilökohtaisen tietokoneen malli.  Varsinkin kehitettäessä metatietostandardeja ja -vaatimusmäärittelyitä on suuri kiusaus vain lisätä määrittelyyn kaikki mahdollinen taivaan ja maan väliltä ihan vain kaiken varalta.  Tällaisessa on kuitenkin ongelmansa, joita käsittelen seuraavissa kirjoituksissani.

Korkealuokkaisten metatietojen tuottamisessa on mielestäni keskeistä, että ainakin joitain niiden käyttötarkoituksia on selvillä.  Tämä ohjaa metatiedon tuottajan intuitiota tarvittavasta tiedosta paremmin kuin perustelematon lista annettavista metatiedoista.  Uskon, että metatieto, joka palvelee yhtä käyttötarkoitusta hyvin, on vähintään yhtä käyttökelpoista ennakoimattomiin tarkoituksiin kuin metatieto, jonka käyttötarkoitus on jätetty avoimeksi.  Käyttötarkoituksen ei tarvitse olla kovin ihmeellinen: hyviä käyttötarkoituksia ovat esimerkiksi vastaaminen kysymyksiin "pystynkö käyttämään aineistoa koneellani" ja "missä aineistossa on minua kiinnostavia tietoja".  Metatietoja voidaan käyttää tukemaan tiedon löytämisen lisäksi tiedon tulkintaa, verrannollisuutta muihin tietoihin, jatkokäsiteltävyyttä, tallettamista ja monia muita tarkoitusperiä.

Seuraavissa kirjoituksissani paneudun metatietojen yhtenäistämisen haasteisiin, jonka jälkeen käsittelen suoraan työhöni liittyviä relaatiomuotoisten aineistojen metatietoja.


kommentoi (viimeksi muutettu 11.11.2014 15:17)