Distribusjon og integrasjon av folkeregisterdata med semantisk teknologi

Wingerei, Henrik

Master thesis

View/Open

Wingerei-Master.pdf (1.367Mb)

Year

2012

Abstract

Norge er i en unik situasjon når det kommer til muligheter for distribusjon og samhandling av offentlige data. Dette skyldes blant annet at Norge, som et av få land, har ett sentralt register som inneholder informasjon om alle som har bodd eller bor i Norge: Det sentrale folkeregister. Potensialet som ligger i mulighetene for informasjonsutveksling og samhandling vanskeliggjøres imidlertid av dagens distribusjonsmodell. Dette kommer konkret til uttrykk hos NAV hvor distribusjonsmodellen kompliserer identifiseringen av personer. I tillegg eksisterer det en rekke andre registre i det offentlige Norge som brukes som supplement til data som ligger i Folkeregisteret, og det er knyttet utfordringer til integrasjon av disse heterogene kildene.

Basert på noen av dagens modeller fra Folkeregisteret og NAV, presenterer oppgaven en modell for distribusjon som anvender semantiske teknologier. Oppgaven viser hvordan folkeregisterdata kan konverteres til RDF på en konservativ måte og videre hvordan ontologier kan utvikles basert på dokumentasjon fra Skattedirektoratet og NAV. Til slutt vises det hvordan en ny distribusjonsløsning som distribuerer folkeregisterdataene gjennom et SPARQL-endepunkt og et RESTfullt grensesnitt, kan implementeres.

Den nye distribusjonsløsningen som er presentert vil gi en fleksibel løsning som blant annet gjør det enklere å integrere heterogene kilder, med et grensesnitt som gjør det mulig å stille kraftige, vilkårlige spørringer. I tillegg vil ontologier med eksplisitte begrepsdefinisjoner og relasjoner mellom disse muliggjøre resonnering, noe som kan føre til at ny kunnskap oppdages.

Arbeidet har vist at det å benytte semantiske teknologier til en distribusjonsløsning krever opplæring og erfaring av både utviklere og brukere av et slikt system. For virkelig å kunne utnytte semantiske teknologier er det viktig at det brukes tid på å utvikle ontologier som fanger semantikken til dataene. Dette er imidlertid et tidkrevende og vanskelig arbeid, og det er heller ikke alt som er enkelt eller mulig å modellere.

Oppgaven viser at distribusjonsløsningen som er presentert gjør at etater og andre aktører kan få tilgang til oppdaterte data, og gjøre det enklere å integrere disse dataene mot andre kilder. I tillegg kan identifiseringsprosessen hos NAV utføres basert på et større og bedre datagrunnlag, samt gi større muligheter for å kontrollere denne prosessen ved å kunne stille vilkårlige kontrollspørringer.