(toiminnot)

hwechtla-tl: Metatiedot, osa 3: aineistojen tunnisteet ja versiot

Kierre.png

Mikä on WikiWiki?
nettipäiväkirja
koko wiki (etsi)
viime muutokset


Suurin osa TTA-minimimetatietomallin automaattisesti tuotettavista kentistä on seurantatietoa, jolla pidetään kirjaa aineistojen eri versioista, aineistoon liittyvistä metatiedoista ja metatietojen eri versioista. Näihin liittyviä metatietoelementtejä ovat aineiston tunnisteet ja muutosajankohta sekä metatietojen tunniste ja muutosajankohta. Kullekin elementille on syynsä, miksi se on sisällytetty minimimetatietoihin.

-- kirjoitettu: torstai 28. maaliskuuta 2013, 13.59 -- viimeisin muutos: perjantai 12. huhtikuuta 2013, 11.03

On jo jonkin aikaa tunnistettu laajalti, että pysyväistunnisteita (PIDejä) tarvitaan sähköisille resursseille kuten tutkimusaineistoille, jotta pitkällä aikavälillä niitä voitaisiin hallinnoida ja niihin viitata.  Pysyväistunnisteet ovat ikuisesti uniikkeja merkkijonoja, eli on taattua, ettei yhdelle asialle annettua tunnistetta ole annettu eikä tulla koskaan antamaan toiselle.  Esimerkiksi henkilötunnukset ovat Suomen kansalaisten pysyväistunnisteita, mutta sähköisten resurssien pysyväistunnistejärjestelmät ovat tuoreempia: näkyvimpiä niistä ovat URN, Handle, DOI ja OID.  Esittelen pysyväistunnisteita tarkemmin myöhemmissä kirjoituksissa.

Pysyväistunnisteita on annettu tutkimusaineistoille melko vähän aikaa, joten yleiset käytännöt eivät ole vielä ehtineet muotoutua.  Tunnisteiden käytöstä on kuitenkin kertynyt sen verran kokemusta, että on ehditty huomata monia tunnisteisiin liittyviä kysymyksiä ja epäselvyyksiä.  Mille asioille pitäisi antaa tunniste?  Vaihtuuko aineiston tunniste, kun sisältö vaihtuu?  Mihin tutkimusaineiston tunniste oikeastaan viittaa: sen siivottuun, arkistoituun versioon, raakadataan, yleiseen kuvaukseen, kenties aineistosta tehtyyn artikkeliin -- vai kaikkiin näihin yhdessä?  Jos tunnisteelle talletetaan _resolver_-palveluun www-osoite, johon tunniste viittaa, mitä kyseisestä www-osoitteesta pitäisi löytyä?  Pitäisikö kaikkien käyttää samaa pysyväistunnistejärjestelmää, ja jos pitäisi, niin mitä?

TTA-minimimetatietomallissa on yritetty selventää joitain näistä kysymyksistä, vaikkei malli suoraan otakaan kantaa niihin.  TTA-minimimetatietomalli tuntee kolmenlaisia tunnisteita, jotka on saatettu mieltää aiemmissa kuvailukäytännöissä samaksi asiaksi:

  1. Aineiston versioon liittyvä tunniste
  2. Aineiston eri versioille yhteinen tunniste
  3. Aineiston metatietojen tunniste

TTA-minimimetatietomalli määrittelee tutkimusaineiston _sellaisenaan hyödynnettävissä olevaksi tietokokonaisuudeksi_. Koska kyseessä on *aineiston* tunniste, se annetaan mille tahansa tietokokonaisuudelle, joka halutaan julkaista ja on käytettävissä sellaisenaan.  Muita tunnisteita voi tietenkin lisäksi antaa mille tahansa, mihin ylipäänsä pitää pystyä viittaamaan, kuten aineistossa oleville muuttujille joissakin tilanteissa.

Metatietotietue katsotaan minimimetatietomallissa omaksi oliokseen: se on _yhtä aineistoa kuvaileva, samasta lähteestä tuleva metatietokokonaisuus_.  Niinpä metatiedolle ja aineistolle on eri tunnisteet.  Tämä ratkaisee montakin kysymystä.  Ensinnäkin samalle aineistolle voi olla useampia, eri lähteistä saatuja metatietoja, ja ne pystytään myös tunnistamaan erillisiksi.  Metatietoja voi päivittää, vaikkei aineisto muuttuisikaan, ja päivitetyt metatiedot pystyy tunnistamaan saman aineiston päivitetyiksi metatiedoiksi.  Ja vielä lopuksi, kun tunnisteet ovat erillisiä, voi tunnistetta vastaava metatiedon osoite osoittaa aineistoa kuvailevalle www-sivulle, kun taas aineiston osoite voi osoittaa itse aineistoon (toimia latauslinkkinä).

Tärkein suunnitteluperiaate TTA-minimimetatietomalliin sisällytettyjen seurantatietojen taustalla on se, että metatietojen tulkintaan ei tulisi tarvita asiayhteyttä, kuten tietoa siitä, mitä kautta metatiedot on saatu.  Koska aineistojen metatiedot ovat koko ajan avoimemmin tarjolla ja niitä kerätään yhä laajemmiksi kokonaisuuksiksi, metatiedon alkuperäinen lähde usein hukkuu.  Metatiedoille saatetaan myös tehdä matkan varrella erilaisia automaattisia muunnoksia, jolloin on vaikeaa edes tunnistaa, että tietyt metatiedot ovat alun perin olleet samoja.  Samaan aineistoon saattaa liittyä eri metatietoformaateissa tehtyjä kuvailuja, jotka kuvailevat aineistoa eri tavoin ja eri näkökulmista.  Alla on kaavio mahdollisesta tutkimusaineistojen metatietojen kulkeutumisesta tulevaisuuden tutkimusinfrastruktuurissa.

(kaavio)

Minimimetatietomallin elementit helpottavat asiayhteydestään irrotetun metatiedon käsittelyä. Kun metatietopalvelu vastaanottaa aineistokuvauksen, se voi metatiedon tunnisteen perusteella nähdä, onko se saanut jo kyseiset metatiedot samaa tai eri kautta.  Metatiedon muutosajankohta kertoo, kumpi versio metatiedoista on tuoreempi, ja palvelu voi tallettaa historian siitä, millaisia muutoksia metatiedoissa on tapahtunut ajan mittaan.  Jos aineistokuvaus on uusi, palvelu voi tunnistaa aineiston tunnisteen perusteella, liittyykö se johonkin jo kuvailtuun aineistoon, ja yhdistää kuvaukset tai esittää ne rinnakkain.  Aineiston muutosajankohdan perusteella voi varmistaa, liittyvätkö aineiston eri kuvailut varmasti samaan versioon aineistosta, ja esittää aineiston sisällölliset muutokset osana aineiston historiatietoa.

TTA-minimimetatietomalli edellyttää, että aineistoon liittyy ainakin yksi sellainen tunniste, joka vaihtuu aina, kun aineiston sisältökin vaihtuu.  Tämä on välttämätöntä, sillä tutkimusaineistojen tarkoitus on tukea tai kumota erilaisia päätelmiä, ja tutkimuksen toistamiseksi on tärkeää tietää käyttävänsä täsmälleen samaa aineistoa.  Minimimetatietomalli antaa kuitenkin mahdollisuuden myös aineistoversioiden väliselle, aineiston yhteiselle tunnisteelle.  Tällaista kannattaa käyttää, jos kyseessä on esimerkiksi jatkuvasti tai säännöllisesti päivittyvä aineisto, johon on järkevää viitata myös muuttuvana, elävänä oliona ja säänneltynä tuotantoprosessina.  Toinen mahdollisuus aikasarja-aineistojen merkitsemiseen on tehdä päivityksistä itsenäisiä tutkimusaineistoja mutta saman sarjan tai kokoelman osia.

Yhdessä kaikki nämä eri mahdollisuudet tuottavat yllättävän monimutkaisen kokonaisuuden, jossa metatiedoilla, aineistoilla ja kokoelmilla on pysyväistunniste (PID), kaikkeen viitataan tunnisteen kautta, ja aineisto on erillinen metatiedoistaan (alla oleva kaavio).

(kaavio)

Tämä saattaa tuntua monimutkaiselta, mutta TTA-minimimetatietomalli tekee asiasta helpon loppukäyttäjälle.  Huolehdi siitä, että aineistokuvailussasi on sekä aineistolle että kuvailulle itselleen pysyväistunniste ja muutosajankohta, tai käytä palvelua, joka pitää niitä yllä puolestasi.  Näin helpotat metatietojesi uudelleenkäyttöä.


kommentoi (viimeksi muutettu 11.11.2014 15:32)