Kunnon metatiedot ovat keskeisiä tiedon laajan hyödynnettävyyden kannalta. Puhe metatiedoista nousee kuitenkin helposti sellaisiin sfääreihin, etteivät keskustelun osapuolet ymmärrä toisiaan eivätkä aina itsekään tiedä, mitä tarkoittavat. Tässä kirjoituksessa käsittelen metatietoja yleisellä tasolla, mutta pyrin myös antamaan esimerkkejä, jotka konkretisoivat asiaa.
-- kirjoitettu: tiistai 22. kesäkuuta 2010, 15.05 -- viimeisin muutos: keskiviikko 23. kesäkuuta 2010, 11.00
Määrittely ensiksi: metatieto tarkoittaa tiedon tai minkä tahansa aineiston kuvailua. Esimerkiksi ilmaus "tekijänoikeuslaki koskettaa jokaista kansalaista" on metatietoa, koska se on kuvaus tiedon, tässä tapauksessa tekijänoikeuslain, ominaisuuksista, tässä tapauksessa sosiaalisesta vaikutusalueesta. Kohdetiedon ei tarvitse olla tulkittavissa, se voi olla raakaa dataa: "tiedosto shakki.jpeg on kuva" ja "kuvasta shakki.jpeg puolet on valkoista" ovat myös metatietoja. Jopa sellainen yleisluontoinen toteamus kuin "Kärpästen herra on minusta poliittinen kirja" on nähtävissä metatiedoksi.
Kuten yllä olevista esimerkeistäkin näkyy, metatietoa voi antaa monella tasolla ja monesta näkökulmasta. Seuraavassa on esimerkkejä eri tyyppisistä metatiedoista ja niiden kohteena olevista tiedoista.
metatieto kohdeaineisto tyyppi säilytystapa
valiokuntakäsittely kehitysmaiden käsittelytieto: tietokanta Suomen
tukeminen tieto siitä, eduskunnan
ruokaturvahaasteessa mitä TRIP-järjestelmässä,
-tiedonanto tiedonannolle on tiedot linkitetty esim.
tehty käsittelykokousten
hallinnollisesti pöytäkirjoihin
missäkin
vaiheessa
tietojärjestelmäkuvaus SYKE:n kuvaileva tieto: tekstidokumentti SYKE:n
meluntorjunnan tiivistelmä julkaisujärjestelmässä,
tietojärjestelmä sisällöstä linkitetty
tietojärjestelmää
koskeviin asiakirjoihin
(lupasopimuksiin yms.)
termimääritelmä kaikki selittävä tieto: TK:n metatietopankki,
aineopiskelijalle tilastokeskuksen aineiston jossa tilastojen
tilastot, joissa rakennetta tai kuvaukset on linkitetty
termi esiintyy: esi- merkitystä käsitemäärittelyihin ja
ja peruskouluopetus, tarkentava tieto käsitteet niitä
lukiokoulutus ja käyttäviin tilastoihin
oppilaitosten
aikuiskoulutus
Assyria-hakusana kaikki, mikä käyttää selittävä tieto: YSA:n tietokanta, jossa
yleistä suomalaista aiheita asiasanat on linkitetty
asiasanastoa (YSA:a) luokitteleva ja synonyymeihinsa ja
asioiden ja niiden välisiä kieliversioihinsa
käsitteiden yhteyksiä
luokitteluun, määrittävä tieto
esimerkiksi
kirjastojen tiedot
Gilgamesh-eepoksesta
jotka puolestaan
ovat varsinaisen
kirjan metatietoa
Tiedostomuoto (HTML), CSC:n etusivu tekninen tieto CSC:n
merkistö (UTF-8), julkaisujärjestelmä
tiedoston koko (26281
tavua)
tieto siitä, mitä tämä blogikirjoitus käsittelytieto: Panun pää
blogikirjoitukselle tieto
pitää seuraavaksi kirjoituksen
tehdä tämänhetkisestä
tilasta ja
suunnitelma
tulevasta
käsittelystä
Taulukosta huomaa, että metatiedon ei tarvitse edes kirjoitettaessa liittyä tiettyyn aineistoon, vaan eri aineistot voivat joiltain osin käyttää etukäteen annettuja metatietoja, jos ne soveltuvat aineistolle eli pitävät paikkansa aineiston suhteen. Mitä tulee säilytystapaan, tietotekniset metatietojen tallennusratkaisut korostuvat, koska halusin valita esimerkkejä, jotka ovat jollain tavoin saavutettavissa selaimella.
Kun kerran metatiedolla tarkoitetaan näin monimuotoisia asioita, pitäisi kaikille olla selvää, että metatieto käsitteenä on useisiin keskusteluihin liian yleisluontoinen. Kun esimerkiksi vaaditaan julkisille tiedoille parempia metatietoja, tuskin kukaan tarkoittaa sillä tietokantaa, jossa on kiljoona tietoa tyyliin "Panu ei tykkää tekijänoikeuslaista" ja "eduskunnan etusivulla on 160 k-kirjainta". Metatietoja suunniteltaessa onkin pakosti mielessä jokin visio siitä, mihin metatietoja tullaan käyttämään. Esimerkiksi kirjastot keräävät teosten metatietoja tietokannoiksi helpottaakseen teosten löytämistä. Kyselyaineiston metatiedoilla pyritään usein myös tukemaan aineiston tulkintaa. Toisaalta asiakirjanhallintajärjestelmissä saatetaan pitää sellaisia asiakirjojen metatietoja, joita ei ole missään muualla ja jotka eivät saa hävitä: esimerkiksi asiakirjan vastuuhenkilöä, käsittelyhistoriaa ja julkisuusastetta.
Mutta vaikka metatietoja kirjoitettaessa onkin yleensä mielessä ainakin jokin metatietojen käyttötarkoitus, toisaalta metatiedoilla pyritään usein vastaamaan myös tuleviin, tuntemattomiin tarpeisiin. Periaatteessahan metatietojen rikastuttaminen ei ole keneltäkään pois, vaan jokainen lisätty metatieto on tulevaisuudessa potentiaalisesti hyödynnettävä tieto, vaikka se vaikuttaisi täysin epäolennaiselta: esimerkiksi kuvailtavan aineiston tuottajan oman henkilökohtaisen tietokoneen malli. Varsinkin kehitettäessä metatietostandardeja ja -vaatimusmäärittelyitä on suuri kiusaus vain lisätä määrittelyyn kaikki mahdollinen taivaan ja maan väliltä ihan vain kaiken varalta. Tällaisessa on kuitenkin ongelmansa, joita käsittelen seuraavissa kirjoituksissani.
Korkealuokkaisten metatietojen tuottamisessa on mielestäni keskeistä, että ainakin joitain niiden käyttötarkoituksia on selvillä. Tämä ohjaa metatiedon tuottajan intuitiota tarvittavasta tiedosta paremmin kuin perustelematon lista annettavista metatiedoista. Uskon, että metatieto, joka palvelee yhtä käyttötarkoitusta hyvin, on vähintään yhtä käyttökelpoista ennakoimattomiin tarkoituksiin kuin metatieto, jonka käyttötarkoitus on jätetty avoimeksi. Käyttötarkoituksen ei tarvitse olla kovin ihmeellinen: hyviä käyttötarkoituksia ovat esimerkiksi vastaaminen kysymyksiin "pystynkö käyttämään aineistoa koneellani" ja "missä aineistossa on minua kiinnostavia tietoja". Metatietoja voidaan käyttää tukemaan tiedon löytämisen lisäksi tiedon tulkintaa, verrannollisuutta muihin tietoihin, jatkokäsiteltävyyttä, tallettamista ja monia muita tarkoitusperiä.
Seuraavissa kirjoituksissani paneudun metatietojen yhtenäistämisen haasteisiin, jonka jälkeen käsittelen suoraan työhöni liittyviä relaatiomuotoisten aineistojen metatietoja.