- Remote Access Infrastructure for Register Data

RAIRD FAQ - Ofte stilte spørsmål

Hva er RAIRD?

RAIRD står for “Remote Access Infrastructure to Register Data” og er et samarbeidsprosjekt mellom NSD (Norsk samfunnsvitenskapelig datatjeneste AS) og SSB (Statistisk sentralbyrå). Prosjektet er finansiert av Norges forskningsråd under programmet Nasjonal satsing på forskningsinfrastruktur (INFRASTRUKTUR).

Hvilke problemer skal RAIRD løse?

RAIRD skal stimulere til økt bruk av registerdata i forskning. Data skal gjøres lettere tilgjengelig for slike formål. Norge har mange gode kilder til registerdata, og norsk lov åpner for at de kan brukes til forskning Søknadsprosessen knyttet til utlån av avidentifiserte mikrodata fra registre er imidlertid omfattende. I tillegg er tilrettelegging av datasett for utlån tid- og kostnadskrevende.

I RAIRD-modellen lånes ikke data ut; i stedet gjøres registerdata tilgjengelig på en måte som gjør at:

  • det ikke lenger er nødvendig å søke om konsesjon eller dispensasjon fra dataeier for å få tilgang gjennom det anonymiserende grensesnittet
  • SSB ikke behøver å legge tilrette datasett etter bestilling; forskeren legger selv til rette de data en vil bruke gjennom grensesnittet

Hvilke registre vil inngå i RAIRD?

Registre som SSB selv har behandlingshjemmel for (innsamlet med hjemmel i Statistikkloven) Dette gjelder

  • Folkeregisteret
  • Nasjonal utdanningsdatabase (NUDB)
  • Selvangivelsesregisteret
  • Arbeidsmarkedsdata
  • Forløpsdatabasen FD-Trygd

Når skal RAIRD lanseres?

Første offentlig tilgjengelige versjon av RAIRD skal være på luften i 2017.

Inneholder RAIRD anonyme data?

Nei. RAIRD inneholder komplette, umodifiserte data der direkte personidentifikasjon er slettet. Personvernet i RAIRD ivaretas gjennom et “anonymiserende grensesnitt” som gir tilgang til bearbeiding og analyse av dataene, men hvor man ikke kan se eller få kjennskap til personopplysningene.

Er RAIRD hovedsaklig et tilbud til mastergradsstudenter?

Nei. RAIRD er en nasjonal infrastruktur for forskning på registerdata, og målet er å forenkle og forbedre tilgangen til slike data for alle grupper av forskere som kvalifiserer for tilgang.

Mastergradsstudenter blir ofte brukt som eksempel i omtalen av RAIRD-prosjektet, fordi denne gruppen i dag av tids- og kostnadsmessige årsaker er avskåret fra å forske på registerdata (utover et 20%-utvalg av FD-Trygd). RAIRD skal være en infrastruktur som bedrer tilgangen for alle grupper av forskere.

Vil RAIRD medføre endring av nåværende utlån av registerdata til forskning?

Nei, formålet med prosjektet er å stimulere til mer forskning og etablering av flere miljø som forsker på registerdata. Suksesskriteriet for RAIRD er at systemet blir så bra at det på sikt kan stå for eller effektivisere brorparten av dataformidlingen fra SSB. Målet er slik sett at en størst mulig gruppe forskere vil kunne utføre mer av sitt arbeid med registerdata gjennom RAIRD. Den eksisterende ordningen blir ikke lagt ned, men RAIRD skal supplere den gjeldende ordningen i muligheter og volum.

RAIRD vil kunne spille en positiv rolle for miljøer som fortsatt vil søke om utlån av mikrodata fordi systemet kan brukes til utforskning/analyse av datatilfanget i forkant av eller som en del av søknadsprosessen for utlån.

Hvordan kan jeg søke om tilgang til RAIRD?

Søknads- og tilgangsprosessen er under utvikling.

Hvorfor får man ikke adgang til å se på mikrodata i RAIRD?

Den forenklede tilgangen i RAIRD (som vil redusere tidsbruk og kostnader knyttet til tilgang) bygger på en modell hvor mikrodata hverken lastes ned eller er tilgjengelig for direkte visuell inspeksjon. Forskeren må i stedet bruke dokumentasjon (metadata), samt de bearbeidings-, analyse- og visualiseringsteknikker som foreligger for å gjøre seg kjent med data.

Hvis det likevel er nødvendig å se på data, eller å koble egne data sammen med registerdata, iverksettes regelverket for utlån av mikrodata (inkludert dispensasjonssøknad, eventuell konsesjonssøknad, etc). I en slik situasjon kan forskeren bruke RAIRD til å strømlinjeforme søknadsprosessen gjennom utforskning av data og tilrettelegging av egne datasett som det så kan søkes tilgang til etter gjeldende retningslinjer.

Kan man koble på egne data i RAIRD?

I utgangspunktet ikke. Kobling av egne data til registerdata medfører høyere risiko for identifisering av enkeltindivider, og er ikke i samsvar med RAIRDs forenklede modell for tilgang. SSB som koblingsinstans har heller ikke behandlingshjemmel for brukernes "egne data". Derfor krever slike problemstillinger at det må søkes om nødvendige tillatelser.

Har brukere adgang til å bruke vanlige statistikkpakker i RAIRD?

Nei. Tradisjonelle statistikkpakker og -verktøy som Stata, SAS, SPSS, R, Python, etc, er ikke kompatible med anonymiseringsmodellen som er valgt i RAIRD, hvor bearbeiding og analyse utføres i et kontrollert miljø som gjør det mulig å sikre datakonfidensialiteten gjennom hele analyseprosessen.

RAIRD tilbyr et alternativt grensesnitt for import, bearbeiding og analyse og visualisering av registerdata (både forløpsdata og statusdata). Dette grensesnittet ivaretar personvernet og støtter samtidig velkjente analyseteknikker og arbeidsmåter. RAIRD skiller seg fra vanlige statistikkpakker ved at vesentlig mer metadata (informasjon, datadokumentasjon) er fullt integrert i verktøyet.

Hvilke statistikkpakker/algoritmer benyttes i RAIRD-plattformen?

Algoritmene som benyttes hentes fra åpne og velprøvde programvarebiblioteker og -moduler.

Per i dag benyttes følgende moduler fra programmeringsmiljøet Python:

Samtlige statistiske metoder i RAIRD blir behørig dokumentert, inkl. referanser til de underliggende modulene (med kildekode). Dokumentasjonen blir tilgjengelig for brukere av RAIRD.

Vil RAIRD få støtte for nye statistiske metoder etter hvert som de dukker opp?

Ja, RAIRD er i stadig utvikling og vi vil innlemme flere analysemetoder etterhvert. Før en analyseteknikk kan bli inkludert, vil vi vurdere den med tanke på konfidensialitetssikring, og eventuelt implementere avsløringskontroll for output fra analyser.

Kan man bruke/installere “plugins” i RAIRD?

Konfidensialitetshensyn gjør at vi må gjennomgå alle analysetyper og -funksjoner før de blir innlemmet i systemet. Det er derimot fullt mulig å be om at nye algoritmer/metoder blir lagt til. RAIRD vil etablere et apparat for å håndtere denne type forespørsler.

Vil man ikke avsløre sensitive data med et slikt system? Hva med personvernet?

RAIRD gjør det mulig å forske på registerdata, men de aktuelle data ligger beskyttet mot direkte tilgang, slik at en bruker ikke får ut identifiserende eller sensitiv informasjon.

Hvordan skal jeg kunne analysere data uten å få se dem?

Visuell inspeksjon av data er tradisjonelt en mye brukt teknikk for å forstå data, og for å verifisere og kontrollere stegene i en databearbeidingsprosess. I RAIRD er det i utgangspunktet ikke mulig å se datamatrisene. Det er derfor utviklet metadataløsninger og deskriptive teknikker og hjelpemidler som skal bidra til forståelse av data og kontroll av databearbeidingsprosesser uten direkte visuell tilgang til de enkelte dataverdiene.

Kan hvem som helst registrere seg som bruker?

For å få tilgang til å bruke RAIRD må man være en registrert bruker og gjennomgå kursing. Systemet er først og fremst utviklet for forskere og studenter på høyere utdanningsnivåer som oppfyller kriteriene for tilgang. Alle må ha et prosjekt som grunnlag for å søke om å få lov til å benytte systemet, og man blir da registrert med tilgang i en avgrenset periode avhengig av hva tilgangen er gitt for.

Hvorfor skiller RAIRD seg fra registerdataløsningene i f.eks. Sverige og Danmark?

Løsningene i Sverige og Danmark er er basert på en såkalt “Remote Access”-tilnærming (RA), hvor forskere gis fjerntilgang til mikrodata (som er tilrettelagt i henhold til en bestilling) via Citrix- eller Remote Desktop-lignende løsninger, og hvor analyseresultater blir gjenstand for manuell personvernrelatert avsløringskontroll. Etter norsk lovverk vil denne type løsning utløse samme krav til dispensasjoner og konsesjoner som gjelder i dag, og RA-modellen ble derfor ikke funnet hensiktsmessig for RAIRD.

RAIRD-modellen skiller seg fra RA-modellene ved at direkte visuell tilgang til mikrodata forhindres gjennom et anonymiserende grensesnitt. RAIRD-modellen forenkler tilgangsprosessen og eliminerer i stor grad behovet for at datasett tilrettelegges ut fra detaljerte bestillinger i forkant. I stedet får forskere frihet til selv å sette sammen og tilrettelegge datasett med utgangspunkt i registerdatakildene. Ambisjonen for RAIRD-plattformen er på sikt å dekke de databearbeidings- og analysesmuligheter som forskere har behov for.

Tilgangsmodellen i RAIRD er valgt fordi den gir følgende fordeler målt opp mot tradisjonelle modeller:

  • Forskeren kan i RAIRD eksplorere data fritt og selv legge tilrette datasett med utgangspunkt i registerkildene
  • Søknadsprosessen rundt tilgang forenkles betraktelig i og med at forskeren kun får benytte mikrodata gjennom et anonymiserende grensesnitt
  • Avsløringskontroll kan automatiseres

RAIRD-modellen har også visse ulemper målt opp mot de svenske og danske systemene:

  • Grensesnittet er nyutviklet, og inspirert av, men ikke identisk likt eksisterende statistikkpakker
  • Forskeren får ikke se mikrodata direkte
  • Påkobling av egne data er i utgangspunktet ikke mulig
  • Utvikling av egne statistiske metoder og bruk av “plug-ins” blir mer tungvint fordi alle nye metoder må testes og godkjennes i henhold til anonymiseringskriteriene i RAIRD

Disse egenskapene er valgt for å oppnå målet om en anonymiserende plattform for registerforskning og dermed raskere og forenklet tilgang.

I situasjoner hvor det er nødvendig å se på data, eller å koble egne data sammen med registerdata, kommer regelverket for utlån av mikrodata inn (inkludert dispensasjonssøknad, eventuell konsesjonssøknad, etc). I en slik situasjon kan forskeren bruke RAIRD til å strømlinjeforme søknadsprosessen gjennom utforskning av data og tilrettelegging av de ønskede data fra SSB, som det så kan søkes tilgang til etter gjeldende retningslinjer.

I et slikt scenario kan en bruke RAIRD-systemet i et oppsett som minner om det man har i Sverige og Danmark. Det vil være mulig å gi brukere ulike rettigheter i systemet dersom de har de tillatelsene som kreves. Ulike rettigheter kan være både “å se data” og å bruke standard programpakker uten konfidensialitetssikring. Potensialet i RAIRD er derfor at det kan videreutvikles som RA-løsning, det blir i stor grad et spørsmål om fremtidig ambisjonsnivå.