<?xml version="1.0" encoding="ISO-8859-15"?>
<rss version="2.0"><channel>
<title>metatiedot, osa 3: aineistojen tunnisteet ja versiot</title>
<link>http://sange.fi/~atehwa/cgi-bin/piki.cgi/</link>
<description>Recent changes in metatiedot, osa 3: aineistojen tunnisteet ja versiot</description>
<item><title>metatiedot, osa 3: aineistojen tunnisteet ja versiot</title>
<link>http://sange.fi/~atehwa/cgi-bin/piki.cgi/metatiedot%2C%20osa%203%3A%20aineistojen%20tunnisteet%20ja%20versiot</link>
<guid>http://sange.fi/~atehwa/cgi-bin/piki.cgi/#1415712752</guid>
<description>&lt;p&gt;&lt;ins&gt;Suurin osa TTA-minimimetatietomallin automaattisesti 
tuotettavista kentistä on seurantatietoa, jolla pidetään kirjaa 
aineistojen eri versioista, aineistoon liittyvistä metatiedoista ja 
metatietojen eri versioista. Näihin liittyviä metatietoelementtejä ovat 
aineiston tunnisteet ja muutosajankohta sekä metatietojen tunniste ja 
muutosajankohta. Kullekin elementille on syynsä, miksi se on 
sisällytetty minimimetatietoihin.&lt;/ins&gt; 

&lt;p&gt;&lt;ins&gt;* ([Tiedot käyttöön -blogi])&lt;/ins&gt; 

&lt;p&gt;&lt;ins&gt;-- kirjoitettu: torstai 28. maaliskuuta 2013, 13.59 -- 
viimeisin muutos: perjantai 12. huhtikuuta 2013, 11.03&lt;/ins&gt; 

&lt;p&gt;&lt;ins&gt;On jo jonkin aikaa tunnistettu laajalti, että 
pysyväistunnisteita (PIDejä) tarvitaan sähköisille resursseille kuten 
tutkimusaineistoille, jotta pitkällä aikavälillä niitä voitaisiin 
hallinnoida ja niihin viitata.  Pysyväistunnisteet ovat ikuisesti 
uniikkeja merkkijonoja, eli on taattua, ettei yhdelle asialle annettua 
tunnistetta ole annettu eikä tulla koskaan antamaan toiselle.  
Esimerkiksi henkilötunnukset ovat Suomen kansalaisten 
pysyväistunnisteita, mutta sähköisten resurssien 
pysyväistunnistejärjestelmät ovat tuoreempia: näkyvimpiä niistä ovat 
URN, Handle, DOI ja OID.  Esittelen pysyväistunnisteita tarkemmin 
myöhemmissä kirjoituksissa.&lt;/ins&gt; 

&lt;p&gt;&lt;ins&gt;Pysyväistunnisteita on annettu tutkimusaineistoille melko vähän 
aikaa, joten yleiset käytännöt eivät ole vielä ehtineet muotoutua.  
Tunnisteiden käytöstä on kuitenkin kertynyt sen verran kokemusta, että 
on ehditty huomata monia tunnisteisiin liittyviä kysymyksiä ja 
epäselvyyksiä.  Mille asioille pitäisi antaa tunniste?  Vaihtuuko 
aineiston tunniste, kun sisältö vaihtuu?  Mihin tutkimusaineiston 
tunniste oikeastaan viittaa: sen siivottuun, arkistoituun versioon, 
raakadataan, yleiseen kuvaukseen, kenties aineistosta tehtyyn 
artikkeliin -- vai kaikkiin näihin yhdessä?  Jos tunnisteelle 
talletetaan _resolver_-palveluun www-osoite, johon tunniste viittaa, 
mitä kyseisestä www-osoitteesta pitäisi löytyä?  Pitäisikö kaikkien 
käyttää samaa pysyväistunnistejärjestelmää, ja jos pitäisi, niin 
mitä?&lt;/ins&gt; 

&lt;p&gt;&lt;ins&gt;TTA-minimimetatietomallissa on yritetty selventää joitain 
näistä kysymyksistä, vaikkei malli suoraan otakaan kantaa niihin.  
TTA-minimimetatietomalli tuntee kolmenlaisia tunnisteita, jotka on 
saatettu mieltää aiemmissa kuvailukäytännöissä samaksi asiaksi:&lt;/ins&gt; 

&lt;p&gt;&lt;ins&gt;# Aineiston versioon liittyvä tunniste # Aineiston eri 
versioille yhteinen tunniste # Aineiston metatietojen tunniste&lt;/ins&gt; 

&lt;p&gt;&lt;ins&gt;TTA-minimimetatietomalli määrittelee tutkimusaineiston 
_sellaisenaan hyödynnettävissä olevaksi tietokokonaisuudeksi_. Koska 
kyseessä on *aineiston* tunniste, se annetaan mille tahansa 
tietokokonaisuudelle, joka halutaan julkaista ja on käytettävissä 
sellaisenaan.  Muita tunnisteita voi tietenkin lisäksi antaa mille 
tahansa, mihin ylipäänsä pitää pystyä viittaamaan, kuten aineistossa 
oleville muuttujille joissakin tilanteissa.&lt;/ins&gt; 

&lt;p&gt;&lt;ins&gt;Metatietotietue katsotaan minimimetatietomallissa omaksi 
oliokseen: se on _yhtä aineistoa kuvaileva, samasta lähteestä tuleva 
metatietokokonaisuus_.  Niinpä metatiedolle ja aineistolle on eri 
tunnisteet.  Tämä ratkaisee montakin kysymystä.  Ensinnäkin samalle 
aineistolle voi olla useampia, eri lähteistä saatuja metatietoja, ja ne 
pystytään myös tunnistamaan erillisiksi.  Metatietoja voi päivittää, 
vaikkei aineisto muuttuisikaan, ja päivitetyt metatiedot pystyy 
tunnistamaan saman aineiston päivitetyiksi metatiedoiksi.  Ja vielä 
lopuksi, kun tunnisteet ovat erillisiä, voi tunnistetta vastaava 
metatiedon osoite osoittaa aineistoa kuvailevalle www-sivulle, kun taas 
aineiston osoite voi osoittaa itse aineistoon (toimia 
latauslinkkinä).&lt;/ins&gt; 

&lt;p&gt;&lt;ins&gt;Tärkein suunnitteluperiaate TTA-minimimetatietomalliin 
sisällytettyjen seurantatietojen taustalla on se, että metatietojen 
tulkintaan ei tulisi tarvita asiayhteyttä, kuten tietoa siitä, mitä 
kautta metatiedot on saatu.  Koska aineistojen metatiedot ovat koko 
ajan avoimemmin tarjolla ja niitä kerätään yhä laajemmiksi 
kokonaisuuksiksi, metatiedon alkuperäinen lähde usein hukkuu.  
Metatiedoille saatetaan myös tehdä matkan varrella erilaisia 
automaattisia muunnoksia, jolloin on vaikeaa edes tunnistaa, että 
tietyt metatiedot ovat alun perin olleet samoja.  Samaan aineistoon 
saattaa liittyä eri metatietoformaateissa tehtyjä kuvailuja, jotka 
kuvailevat aineistoa eri tavoin ja eri näkökulmista.  Alla on kaavio 
mahdollisesta tutkimusaineistojen metatietojen kulkeutumisesta 
tulevaisuuden tutkimusinfrastruktuurissa.&lt;/ins&gt; 

&lt;p&gt;&lt;ins&gt;(kaavio)&lt;/ins&gt; 

&lt;p&gt;&lt;ins&gt;Minimimetatietomallin elementit helpottavat asiayhteydestään 
irrotetun metatiedon käsittelyä. Kun metatietopalvelu vastaanottaa 
aineistokuvauksen, se voi metatiedon tunnisteen perusteella nähdä, onko 
se saanut jo kyseiset metatiedot samaa tai eri kautta.  Metatiedon 
muutosajankohta kertoo, kumpi versio metatiedoista on tuoreempi, ja 
palvelu voi tallettaa historian siitä, millaisia muutoksia 
metatiedoissa on tapahtunut ajan mittaan.  Jos aineistokuvaus on uusi, 
palvelu voi tunnistaa aineiston tunnisteen perusteella, liittyykö se 
johonkin jo kuvailtuun aineistoon, ja yhdistää kuvaukset tai esittää ne 
rinnakkain.  Aineiston muutosajankohdan perusteella voi varmistaa, 
liittyvätkö aineiston eri kuvailut varmasti samaan versioon 
aineistosta, ja esittää aineiston sisällölliset muutokset osana 
aineiston historiatietoa.&lt;/ins&gt; 

&lt;p&gt;&lt;ins&gt;TTA-minimimetatietomalli edellyttää, että aineistoon liittyy 
ainakin yksi sellainen tunniste, joka vaihtuu aina, kun aineiston 
sisältökin vaihtuu.  Tämä on välttämätöntä, sillä tutkimusaineistojen 
tarkoitus on tukea tai kumota erilaisia päätelmiä, ja tutkimuksen 
toistamiseksi on tärkeää tietää käyttävänsä täsmälleen samaa 
aineistoa.  Minimimetatietomalli antaa kuitenkin mahdollisuuden myös 
aineistoversioiden väliselle, aineiston yhteiselle tunnisteelle.  
Tällaista kannattaa käyttää, jos kyseessä on esimerkiksi jatkuvasti tai 
säännöllisesti päivittyvä aineisto, johon on järkevää viitata myös 
muuttuvana, elävänä oliona ja säänneltynä tuotantoprosessina.  Toinen 
mahdollisuus aikasarja-aineistojen merkitsemiseen on tehdä 
päivityksistä itsenäisiä tutkimusaineistoja mutta saman sarjan tai 
kokoelman osia.&lt;/ins&gt; 

&lt;p&gt;&lt;ins&gt;Yhdessä kaikki nämä eri mahdollisuudet tuottavat yllättävän 
monimutkaisen kokonaisuuden, jossa metatiedoilla, aineistoilla ja 
kokoelmilla on pysyväistunniste (PID), kaikkeen viitataan tunnisteen 
kautta, ja aineisto on erillinen metatiedoistaan (alla oleva 
kaavio).&lt;/ins&gt; 

&lt;p&gt;&lt;ins&gt;(kaavio)&lt;/ins&gt; 

&lt;p&gt;&lt;ins&gt;Tämä saattaa tuntua monimutkaiselta, mutta 
TTA-minimimetatietomalli tekee asiasta helpon loppukäyttäjälle.  
Huolehdi siitä, että aineistokuvailussasi on sekä aineistolle että 
kuvailulle itselleen pysyväistunniste ja muutosajankohta, tai käytä 
palvelua, joka pitää niitä yllä puolestasi.  Näin helpotat 
metatietojesi uudelleenkäyttöä.&lt;/ins&gt;

</description>
<pubDate>Tue, 11 Nov 2014 13:32:32 +0000</pubDate>
</item>

</channel></rss>
