(toiminnot)

hwechtla-tl: Metatiedot, osa 3,5: erilaisista pysyväistunnisteista

Kierre.png

Mikä on WikiWiki?
nettipäiväkirja
koko wiki (etsi)
viime muutokset


Pysyväistunnisteet (PID) ovat laajahko aihe, johon liittyy säilyvyyden, hallinnan ja vastuiden jakamisen haasteita. Jokaisen käyttäjän (esimerkiksi tutkijan) ei kuitenkaan tarvitse huolehtia tästä kaikesta. Tässä kirjoituksessa kerron perusasiat, jotka jokaisen tutkijan pitäisi tietää.

-- kirjoitettu: keskiviikko 17. huhtikuuta 2013, 12.55 -- viimeisin muutos: perjantai 24. toukokuuta 2013, 10.18

Ensin määritelmät.

_Tunniste_ on nimi, joka annetaan jollekin asialle.  Tunnisteet ovat tyypillisesti jossain kontekstissa yksiselitteisiä, eli sama tunniste ei koskaan viittaa epämääräisesti useampaan asiaan.  Tämän yksiselitteisyysvaatimuksen vuoksi tunnisteita ei ole tyypillisesti tehty mahdollisimman helposti muistettaviksi tai ymmärrettäviksi.  Suomessa henkilötunnus on nimensä mukaisesti henkilön tunniste, ja ajoneuvon rekisterinumero on ajoneuvon tunniste -- mutta ei pysyväistunniste, sillä rekisterinumero voidaan kierrättää, kun se on vapautunut käytöstä.

_Pysyväistunniste_ on tunniste, joka on globaalisti yksiselitteinen ikuisesti.  Se on siis merkkijono, joka on annettu jollekin kohteelle, kuten tutkimusaineistolle, ja josta on taattua, että samaa merkkijonoa ei koskaan enää tulla antamaan tunnisteeksi millekään muulle missään päin maailmaa.  Erilaisia pysyväistunnistejärjestelmiä on paljon; kaikki kansainväliset oikeuspäätös-, näyte- ja kirjastorekisterit ovat pysyväistunnistejärjestelmiä, jos niissä ei anneta samaa tunnistetta koskaan uudelle kohteelle.  Internetin verkkonimirekisteri (_domain name system_) ei ole pysyväistunnistejärjestelmä, koska sama verkkonimi voidaan antaa uudelle haltijalle vapauduttuaan, mutta verkkonimien nimiavaruudessa on useita osia, joissa vapautunutta nimeä ei koskaan kierrätetä.

Tutkimusaineistot -- samoin kuin tutkimusaineistojen metatiedot -- ovat tyypillisesti digitaalisia objekteja kuten tiedostoja, tietokantoja tai palveluita.  Näiden sisältöjen yksiselitteiseen nimeämiseen on käytännössä kaksi vaihtoehtoa: sisällöstä laskettu tarkistussumma (esim. MD5, SHA1, SHA256) tai sitten kansainvälisesti hallinnoitu pysyväistunnisteavaruus (esim. URN, DOI, Handle tai OID).  Tarkoituksena on siis vain antaa tutkimusaineistolle nimi, joka viittaa täsmälleen tiettyyn sisältöön.  Tämän tunnisteen eli nimen perusteella tutkimusaineistoon pystyy viittaamaan aineistoa hyödyntävissä tutkimuksissa, aineistoa kuvailevissa metatiedoissa, aineistotietokannoissa ja muissa tutkimusaineistoissa.

Pysyväistunnisteet eivät ole harvinainen resurssi.  Suomessa pystyy hakemaan pysyväistunnisteen esimerkiksi (http://urnsource-kk.lib.helsinki.fi/cgi-bin/urn.cgi) Kansalliskirjaston PID-palvelusta.  Jos julkaiset tutkimustuloksen ja lisäät aineistosi julkaisun oheismateriaalina, kustantaja tyypillisesti antaa sille DOI-tunnisteen.  Eri tieteenaloilla on omia pysyväistunnistejärjestelmiään, joissa annetut tunnisteet ovat aivan kelvollisia.  Mikä tahansa kelpaa, kunhan on taattu, ettei samaa tunnistetta anneta millekään muulle asialle enää koskaan.

Koska pysyväistunnisteiden antaminen on helppoa, samalle aineistolle saattaa syntyä monta eri tunnistetta: yksi tunniste, kun se viedään kotiorganisaation aineistoarkistoon, toinen tunniste, kun se julkaistaan kansainvälisessä tutkimusyhteisön portaalissa, ja kolmas tunniste, kun se julkaistaan tieteellisessä aikakauslehdessä artikkelin oheismateriaalina.  Ei ole ongelma, että aineistolla on useampia tunnisteita, mutta yleensä on hyvä tietää, että tietty tunnistejoukko viittaa itse asiassa samaan aineistoon.

Tämän vuoksi TTA-metatiedoissa (Metatiedot, osa 2: TTA-minimimetatietomalli) aineistolla saa olla kuinka monta tunnistetta hyvänsä, eikä niiden tarvitse kuulua tiettyyn PID-järjestelmään.  TTA-palvelut antavat URN-tunnisteita aineistoille, joilla ei ole muuta tunnistetta, mutta ottavat toki vastaan muiden järjestelmien tunnisteita, jos niitä on jo tarjolla.

Eri PID-järjestelmät eroavat tavoitteiltaan, tekniseltä toteutukseltaan, tarjoamiltaan palveluilta ja hallinnointimalliltaan.  Handle-tunnisteet ovat numerojonoja, joita saa halvalla (mutta ei ilmaiseksi).  URN-tunnisteet ovat "urn:"-alkuisia merkkijonoja, joita Suomessa saa ilmaiseksi, mutta joihin ei liity kansainvälistä resolver-palvelua eli palvelua, josta pystyisi kyselemään, mihin mikin URN viittaa.  DOI-tunnisteet ovat numerojonoja, joita saa lähinnä kustantajien kautta ja joiden jatkuvuutta yritetään tukea DOI-jakelijoiden korkeahkoilla jäsenmaksuilla.  Handle- ja DOI-järjestelmät edellyttävät tunnisteisiin liitettävän metadataa, josta DOI:n mallissa on (http://www.doi.org/doi_handbook/4_Data_Model.html) laajemmat vaatimukset.

Tärkein ohje on tämä: huolehdi, että aineistosi on yksiselitteisesti viitattavissa.  Tutkimusaineistoista syntyy usein uusia versioita, ja tieteellisen luotettavuuden kannalta on tärkeää, että on selvää, mihin versioon aineistosta viitataan.  Tunnisteet helpottavat aineistojen linkkaamista toisiinsa, järjestelyä ja hallintaa.


kommentoi (viimeksi muutettu 11.11.2014 15:36)