Kunnon metatiedot ovat keskeisiä tiedon laajan hyödynnettävyyden kannalta. Puhe metatiedoista nousee kuitenkin helposti sellaisiin sfääreihin, etteivät keskustelun osapuolet ymmärrä toisiaan eivätkä aina itsekään tiedä, mitä tarkoittavat. Tässä kirjoituksessa käsittelen metatietoja yleisellä tasolla, mutta pyrin myös antamaan esimerkkejä, jotka konkretisoivat asiaa.
-- kirjoitettu: tiistai 22. kesäkuuta 2010, 15.05 -- viimeisin muutos: keskiviikko 23. kesäkuuta 2010, 11.00
Määrittely ensiksi: metatieto tarkoittaa tiedon tai minkä tahansa aineiston kuvailua. Esimerkiksi ilmaus "tekijänoikeuslaki koskettaa jokaista kansalaista" on metatietoa, koska se on kuvaus tiedon, tässä tapauksessa tekijänoikeuslain, ominaisuuksista, tässä tapauksessa sosiaalisesta vaikutusalueesta. Kohdetiedon ei tarvitse olla tulkittavissa, se voi olla raakaa dataa: "tiedosto shakki.jpeg on kuva" ja "kuvasta shakki.jpeg puolet on valkoista" ovat myös metatietoja. Jopa sellainen yleisluontoinen toteamus kuin "Kärpästen herra on minusta poliittinen kirja" on nähtävissä metatiedoksi.
Kuten yllä olevista esimerkeistäkin näkyy, metatietoa voi antaa monella tasolla ja monesta näkökulmasta. Seuraavassa on esimerkkejä eri tyyppisistä metatiedoista ja niiden kohteena olevista tiedoista.
metatieto kohdeaineisto tyyppi säilytystapa valiokuntakäsittely kehitysmaiden käsittelytieto: tietokanta Suomen tukeminen tieto siitä, eduskunnan ruokaturvahaasteessa mitä TRIP-järjestelmässä, -tiedonanto tiedonannolle on tiedot linkitetty esim. tehty käsittelykokousten hallinnollisesti pöytäkirjoihin missäkin vaiheessa tietojärjestelmäkuvaus SYKE:n kuvaileva tieto: tekstidokumentti SYKE:n meluntorjunnan tiivistelmä julkaisujärjestelmässä, tietojärjestelmä sisällöstä linkitetty tietojärjestelmää koskeviin asiakirjoihin (lupasopimuksiin yms.) termimääritelmä kaikki selittävä tieto: TK:n metatietopankki, aineopiskelijalle tilastokeskuksen aineiston jossa tilastojen tilastot, joissa rakennetta tai kuvaukset on linkitetty termi esiintyy: esi- merkitystä käsitemäärittelyihin ja ja peruskouluopetus, tarkentava tieto käsitteet niitä lukiokoulutus ja käyttäviin tilastoihin oppilaitosten aikuiskoulutus Assyria-hakusana kaikki, mikä käyttää selittävä tieto: YSA:n tietokanta, jossa yleistä suomalaista aiheita asiasanat on linkitetty asiasanastoa (YSA:a) luokitteleva ja synonyymeihinsa ja asioiden ja niiden välisiä kieliversioihinsa käsitteiden yhteyksiä luokitteluun, määrittävä tieto esimerkiksi kirjastojen tiedot Gilgamesh-eepoksesta jotka puolestaan ovat varsinaisen kirjan metatietoa Tiedostomuoto (HTML), CSC:n etusivu tekninen tieto CSC:n merkistö (UTF-8), julkaisujärjestelmä tiedoston koko (26281 tavua) tieto siitä, mitä tämä blogikirjoitus käsittelytieto: Panun pää blogikirjoitukselle tieto pitää seuraavaksi kirjoituksen tehdä tämänhetkisestä tilasta ja suunnitelma tulevasta käsittelystä
Taulukosta huomaa, että metatiedon ei tarvitse edes kirjoitettaessa liittyä tiettyyn aineistoon, vaan eri aineistot voivat joiltain osin käyttää etukäteen annettuja metatietoja, jos ne soveltuvat aineistolle eli pitävät paikkansa aineiston suhteen. Mitä tulee säilytystapaan, tietotekniset metatietojen tallennusratkaisut korostuvat, koska halusin valita esimerkkejä, jotka ovat jollain tavoin saavutettavissa selaimella.
Kun kerran metatiedolla tarkoitetaan näin monimuotoisia asioita, pitäisi kaikille olla selvää, että metatieto käsitteenä on useisiin keskusteluihin liian yleisluontoinen. Kun esimerkiksi vaaditaan julkisille tiedoille parempia metatietoja, tuskin kukaan tarkoittaa sillä tietokantaa, jossa on kiljoona tietoa tyyliin "Panu ei tykkää tekijänoikeuslaista" ja "eduskunnan etusivulla on 160 k-kirjainta". Metatietoja suunniteltaessa onkin pakosti mielessä jokin visio siitä, mihin metatietoja tullaan käyttämään. Esimerkiksi kirjastot keräävät teosten metatietoja tietokannoiksi helpottaakseen teosten löytämistä. Kyselyaineiston metatiedoilla pyritään usein myös tukemaan aineiston tulkintaa. Toisaalta asiakirjanhallintajärjestelmissä saatetaan pitää sellaisia asiakirjojen metatietoja, joita ei ole missään muualla ja jotka eivät saa hävitä: esimerkiksi asiakirjan vastuuhenkilöä, käsittelyhistoriaa ja julkisuusastetta.
Mutta vaikka metatietoja kirjoitettaessa onkin yleensä mielessä ainakin jokin metatietojen käyttötarkoitus, toisaalta metatiedoilla pyritään usein vastaamaan myös tuleviin, tuntemattomiin tarpeisiin. Periaatteessahan metatietojen rikastuttaminen ei ole keneltäkään pois, vaan jokainen lisätty metatieto on tulevaisuudessa potentiaalisesti hyödynnettävä tieto, vaikka se vaikuttaisi täysin epäolennaiselta: esimerkiksi kuvailtavan aineiston tuottajan oman henkilökohtaisen tietokoneen malli. Varsinkin kehitettäessä metatietostandardeja ja -vaatimusmäärittelyitä on suuri kiusaus vain lisätä määrittelyyn kaikki mahdollinen taivaan ja maan väliltä ihan vain kaiken varalta. Tällaisessa on kuitenkin ongelmansa, joita käsittelen seuraavissa kirjoituksissani.
Korkealuokkaisten metatietojen tuottamisessa on mielestäni keskeistä, että ainakin joitain niiden käyttötarkoituksia on selvillä. Tämä ohjaa metatiedon tuottajan intuitiota tarvittavasta tiedosta paremmin kuin perustelematon lista annettavista metatiedoista. Uskon, että metatieto, joka palvelee yhtä käyttötarkoitusta hyvin, on vähintään yhtä käyttökelpoista ennakoimattomiin tarkoituksiin kuin metatieto, jonka käyttötarkoitus on jätetty avoimeksi. Käyttötarkoituksen ei tarvitse olla kovin ihmeellinen: hyviä käyttötarkoituksia ovat esimerkiksi vastaaminen kysymyksiin "pystynkö käyttämään aineistoa koneellani" ja "missä aineistossa on minua kiinnostavia tietoja". Metatietoja voidaan käyttää tukemaan tiedon löytämisen lisäksi tiedon tulkintaa, verrannollisuutta muihin tietoihin, jatkokäsiteltävyyttä, tallettamista ja monia muita tarkoitusperiä.
Seuraavissa kirjoituksissani paneudun metatietojen yhtenäistämisen haasteisiin, jonka jälkeen käsittelen suoraan työhöni liittyviä relaatiomuotoisten aineistojen metatietoja.