(toiminnot)

hwechtla-tl: Midras-pilottijärjestelmä

Kierre.png

Mikä on WikiWiki?
nettipäiväkirja
koko wiki (etsi)
viime muutokset


Mukava tapa aloittaa blogi on mainostaa projektia, jossa työskentelee :)

-- kirjoitettu: torstai 22. huhtikuuta 2010, 08.50 -- viimeisin muutos: keskiviikko 19. toukokuuta 2010, 16.20

CSC ja ReTki (http://retki.stakes.fi/FI/index.htm) ovat tänä vuonna tekemässä pilottitoteutusta rekisteritietojen etäkäyttöjärjestelmälle opetus- ja kulttuuriministeriön rahoituksella.  Järjestelmän nimeksi on ehdotettu MIDRAS (microdata remote access system) ja sen tarkoituksena on tarjota selkeä, helppokäyttöinen, tietoturvallinen ja kaikkien osapuolten työtä vähentävä väylä rekisteritietojen tutkimuskäytön tukemiseksi.  Käytännössä kyseessä on etätyöpöytä, jolla tutkijat pystyvät työstämään eri rekisterinpitäjiltä tutkimusta varten käyttöön saatuja aineistoja lataamatta niitä omille koneilleen.  Tietosuoja on erityinen huomiokohta: käyttäjät identifioidaan vahvalla tunnistuksella ja heille avatut aineistot perustuvat tutkimussuunnitelman perusteella myönnettyihin käyttölupiin.  Selvitysprojektista on julkaistu aiemmin (http://www.csc.fi/csc/ajankohtaista/uutiset/rekisterihanke) lehdistötiedote.

MIDRAS-järjestelmän keskeinen ominaisuus on se, että sen kautta on tarkoitus pystyä yhdistelemään useamman tahon tietoja, esimerkiksi työllisyystietoja terveystietoihin tai kuolinsyytietoja tulotietoihin.  Esimerkkejä aineistojen tuottajista ovat Tilastokeskus TK, Kansaneläkelaitos Kela, Terveyden ja hyvinvoinnin laitos THL, Väestörekisterikeskus VRK, työ- ja elinkeinoministeriö TEM, Finanssivalvonta FIVA, verohallinto ja niin edelleen.  Koska tietojen tuottajia on useampia ja henkilötietolaki edellyttää, että henkilötietoja käsitellään henkilötunnisteellisina vain niin kauan kuin on pakko, MIDRAS-järjestelmään liittyy myös mielenkiintoinen *deidentifiointijärjestelmä*: henkilötunnisteet korvataan tutkijoita varten pseudotunnisteilla, jotka ovat tutkimusprojektikohtaisia mutta yhdelle projektille eri rekisterinpitäjiltä saatavissa aineistoissa samat.

Nyt käynnissä olevan pilottiprojektin on tarkoitus selvittää, myös käytännön kokeilulla, millaisia hallinnollisia muutoksia esimerkiksi lakeihin ja viranomaisten käytäntöihin uusi järjestelmä edellyttää, millaisia tietoteknisiä ratkaisuja siihen käytetään ja millaista toimintamallia ja vastuunjakoa siihen sovellettaisiin käytännön töissä ja rahoituksessa.  Toteutuessaan MIDRAS-järjestelmä olisi käytettävissä *moneen muuhunkin asiaan* kuin rekisteritutkimuksen tukemiseen: se tarjoaa hyvän kanavan jakaa arkaluontoisia tai henkilötietosuojan alaisia aineistoja hyödylliseen käyttöön.  Jo rekisterinpitäjien kanssa käydyissä neuvotteluissa on tullut ilmi, että joillekin rekisterinpitäjille saattaisi olla hyötyä aineistojen jakamisesta _oman talon_ käyttöön tällaisella joustavalla, tietosuojaltaan korkeatasoisella ja hyvin auditoidulla järjestelmällä.  MIDRAS-järjestelmään voisi tuoda myös muita, vähemmän arkaluontoisia aineistoja; esimerkiksi maanmittausaineistoja voisi käyttää yhdessä hoitoilmoitusrekisterin kanssa selvittämään, millaiset sairaudet ovat ominaisia millaiselle asuinalueelle.

Toinen mielenkiintoinen selvitystyössä ilmennyt asia on *oheispalveluiden merkitys*: ennen kaikkea se, että käytettävissä olevista aineistoista olisi käytössä mahdollisimman korkeatasoista julkista tietoa, aineistojen metatietoa.  Rekisteritutkimuksessa on haasteellista selvittää, millaisia aineistoja olisi olemassa omaa tutkimusaihetta varten ja mitä tunnetut aineistot tarkkaan ottaen sisältävät.  MIDRAS-järjestelmän oheispalveluksi on suunniteltu ensinnäkin rekisteriaineistojen laajamittaista metatietovarastoa, josta olisi helppoa selvittää esimerkiksi, missä kaikissa aineistoissa on syntyvyyteen liittyviä tietoja/muuttujia; toiseksi näihin metatietoihin pohjautuvaa lupahakemuspalvelua, joka auttaa ja ohjaa tutkijoita laadukkaiden ja tarkkojen lupahakemusten tekemisessä.  Hyvä metatieto käytettävissä olevista aineistoista sekä tukee tutkijaa, joka yrittää selvittää tutkimusideansa toteutustapaa, että antaa aineksia myös uusiin tutkimusideoihin.

Tästä kaikesta muodostuu mielestäni kaunis visio.  Tulevaisuudessa tutkijalle (tai muulle legitiimille tiedon käyttäjälle) on selkeästi tarjolla käytettävissä olevien aineistojen metatieto, joka auttaa hahmottamaan, millaista tietoa on mahdollista saavuttaa olemassa olevia aineistoja hyödyntämällä.  Aineistot ovat käyttösuunnitelmaan perustuvan käyttöluvan pohjalta helposti tarkasteltavissa, ilman että aineistojen päätymisestä vääriin käsiin tarvitsee huolehtia sen paremmin rekisterinpitäjän kuin käyttäjänkään.  Eri lähteissä tuotetut aineistot saadaan yhteen järjestelmään ilman aineistokohtaista erillistä sopimista ja selvittelyä osapuolten kesken.  Aineistot ovat tietosisällöltään mahdollisimman autenttista rekisteridataa, jonka ymmärtämisessä metatieto tarjoaa merkittävän avun.  Tutkimuksesta saadut tulokset ja tutkimuksen avuksi tehty työ voidaan helposti hyödyntää esim. jatkotutkimuksessa päivittämällä aineistoja.

Myöhemmissä kirjoituksissa olen ajatellut kertoa näkökulmista ja havainnoista, joihin olen törmännyt tämän projektin yhteydessä.  Itse projektista kertonen vain, jos siinä tapahtuu jotain selkeästi uutta tai jos esimerkiksi siinä julkaistaan uusia palveluita.  Seuraavaksi paneudun aineistojen metatietoihin ja siihen, millaisten kysymysten kanssa niissä painitaan.


kommentoi (viimeksi muutettu 11.11.2014 15:11)