En registerundersøgelse af den danske befolkning

4 Resultater vedrørende anskaffelse og samkøring af registerdata

4.1 Anskaffelse og bearbejdning af registerdata

Anskaffelse af data var et af de områder, hvor der eksisterede stor usikkerhed både om muligheder og begrænsninger, dels i forhold til hvilke data der var tilgængelige, og dels i forhold til hvor lang tidshorisont, der ville være for anskaffelse af data. Tilgængelighed af personidentificerbare data afhænger af godkendelse fra Datatilsynet. Desuden har de fleste dataholdere ønsket en kopi af projektbeskrivelsen. I alle de tilfælde, hvor projektgruppen har anmodet om data, har der været vilje til at fremskaffe data, men der har været stor forskel på tidshorisonten for dette. De fleste dataudtræk blev modtaget indenfor 2 uger efter anmodning. I et enkelt tilfælde var der forsinkelser i dataleveringen, hvorved projektet blev forsinket.

4.1.1 CPR-registeret

Anskaffelse af et udtræk af CPR-registeret til forskningsformål sker ved henvendelse til CPR-kontoret. CPR-kontoret forestår sagsbehandlingen i forbindelse med godkendelse af projekt mv. CPR-kontoret er vant til denne type af henvendelser, hvorfor sagsgangen opleves som ukompliceret og hurtig. Generering af dataudtrækket foretages af en datadistributør, der ved programmering tager ca. 1000 kr. i timen, og det er oplyst, at der kan forventes et minimumsforbrug på ca. 30 timer. I stedet er det muligt at udvælge et udtræk der matcher en eller flere af de standardudtræk som CPR-kontoret har defineret, hvorved prisen kan reduceres drastisk. For et udtræk, der indeholder data fra efter 1986, kan et totalt udtræk til forskningsformål erhverves for nogle få tusinde kroner, mens udtræk der desuden indeholder data fra før 1986 koster lidt mere, ca. 10.000 kr.

For at få data på en form, der gør videre analyser mulige, har projektet anvendt en professionel programmør til at lægge data i en database. Datasæt i denne størrelse kan ikke lægges i en MS Access database, da der er en databasebegrænsning på Access databaser på 2 Gb. Derfor lagde programmøren data i et ”professionelt” databaseværktøj, MS SQL Server med henblik på videre databehandling. En licens til MS SQL Server varierer meget i pris, det anbefales at tage kontakt til en softwareleverandør for at få den aktuelt gældende pris.

Fra SQL serveren er det muligt ved hjælp af simple SQL-kommandoer at generere udtræk, der indeholder netop de personer og variable, der behandles i projektet. Data kan trækkes ud til mange typer af filer, hvorved det er muligt at arbejde videre med data i netop det softwaremiljø, som er kendt. Ligeledes er det muligt at lade data blive i SQL serveren og anvende den til registersamkøringen. I dette projekt er data trukket ud til et format, der kan læses af ArcGIS, idet GIS programmet senere skulle anvendes til databehandling af rumlige data.

4.1.2 BBR-registeret

Anskaffelse af et udtræk af data fra BBR kan foretages af en af de af OIS godkendte data-distributører. Nærværende projekt rettede henvendelse til to distributører, idet der var interesse i at finde ud af, om der var harmoniseret prisdannelse på området. De to forskellige distributører kunne levere et landsdækkende udtræk af BBR til hhv. 80.000 og 50.000 kr. Projektgruppen valgte den billige løsning, idet den yderligere indeholdt et udtræk af OIS’ adressedata til den samme pris. For beskrivelse af adressedata se afsnit 5.2.3

Databehandling af dataudtræk af den størrelse som CPR, BBR og OSAK kræver stor erfaring, idet mindre fejl kan være svære at opdage og kan have omfattende konsekvenser. Derfor valgte projektgruppen at drage nytte af en ekstern konsulent til håndtering af rådata. Konsulenten importerede alle tre registre fra rådata og lagde data i en database, hvorefter data kunne udtrækkes til brug for projektet herfra. Generering af udtræk fra databasen kan specificeres ud fra udvælgelseskriterier der henviser til værdier i de enkelte kolonner.

4.1.3 OSAK adresserne

OSAK adresserne var indeholdt i udtrækket fra BBR. OSAK adresserne ligger i BBR med færdigbearbejdet adressekode, sammensat af kommunekode, vejkode og husnummer.

4.1.4 Befolkningsdata på kvadratnet

Anskaffelse af kvadratnetdata skete gennem Geomatic, der er specialiseret i anvendelse af kvadratnet-data. Kvadratnet-data er ikke omfattet af Persondataloven, idet aggregering af individdata til kvadratnettet er tilstrækkeligt til at data ikke længere er personfølsomme. Data blev leveret indenfor en uge efter anmodning og opfyldte de kriterier der var stillet til udtrækket. Data blev leveret som umiddelbart anvendelige.

4.1.5 AIS-data

Data kan til forskningsprojekter frit downloades fra DMU’s hjemmeside. Data ligger i formater understøttet af de almindeligste GIS værktøjer i Danmark.

4.1.6 GEUS’ registre

Data fra Jupiter databasen leveres på PC Jupiter format ved henvendelse til GEUS’s borearkiv, men kan også downloades direkte fra GEUS’s hjemmeside. Formatet definerer en række tabeller, der normalt leveres som en Microsoft Access database, men også kan leveres på andre fil-formater. Fra medio 2006 har data været gratis når man selv downlaoder - tidligere kostede det 1 kr pr. boring.

4.1.7 Sundhedsstyrelsens registre

Anskaffelse af data fra Sundhedsstyrelsen har i dette projekt være tidskrævende af flere forskellige årsager. Det oprindelige formål med projektet var, at der udover cancer skulle analyseres forskellige i forekomst af andre sygdomme såsom neurodegenerative lidelser samt forskellige medfødte misdannelser. Dette betød, at udtrækket skulle genereres fra flere forskellige registre i Sundhedsstyrelsen. Der blev rettet henvendelse til Sundhedsstyrelsens forskerservice enhed, der er kontaktpunktet for anskaffelse af data til forskningsprojekter. Udspecificering af udtrækket tog qua den komplekse sammensætning noget tid at formulere, idet dette foregik via telefon- og mailkorrespondance mellem projektlederen og forskerserviceenheden. Det var nødvendigt at identificere de konkrete koder for de enkelte sygdomme, idet en udtræksspecifikation som f.eks. ’brystcancer’ ikke er anvendelig for Sundhedsstyrelsen. En oversigt over de koder der indgår i udtræksspecifikationen kan ses i nedenstående tekstboks.

Udtrækket ønskedes genereret, således at projektgruppen tilsendte CPR numre på landbefolkning (med og uden enkeltvandforsyning) og fik disse retur med angivelse af, om de enkelte personen havde en eller flere af diagnoserne i tekstboksen og data for disse diagnoser.

Sundhedsstyrelsen har et mål om en leveringstid på udtræk på 45 dage, men i denne er ikke inkluderet sagsbehandlingstid ved Datatilsynet og Det Lægelige Råd, idet Sundhedsstyrelsen i forbindelse med anmodning om data fra følgende registre skal indhente godkendelse fra Datatilsynet: Psykiatriregisteret, Cancerregisteret, IVF-registeret, Patologiregisteret og registeret for tvang i psykiatrien. Nærværende projekt anvender data fra Cancerregisteret, Misdannelsesregisteret og Landspatientregisteret, hvorfor indhentning af godkendelse har forøget den samlede sagsbehandlingstid. Endvidere involveres Det Lægelige Råd, hvis personidentificerbare data skal udleveres. Sundhedsstyrelsen har således overholdt deres 45 dages tidsfrist, men derudover tillægges sagsbehandlingstid til godkendelser samt til fejlretning i udtrækket. En oversigt over tidsperspektivet i processen kan ses af nedenstående tekstboks.

Cancerregistret                              

(k_CPRnr, d_diagnosedato, c_udbred)

ICD 7

151   Mavesæk

170   Bryst

175   Æggestok

177   Blærehals

178   Testikel

200-204    Lymfe, bloddannende væv

Landspatientregister

(v_CPRnr, d_indleagdto / inddto)

ICD 10                                                                             ICD 8

G20  Parkinson                                                              341

G35  Disseminieret sclerose                                                  340

Operationsdiagnoser i LPR (c_opr)

1973-87

5426(OPRETNING)

5428(CUM RECONSTRUCTIONE URETHRA)

1988

54260(OPRETNING)

54280(CUM RECONSTRUCTIONE URETHRA)

55640 ORCHIOPEXIA

?        Operation for kryptorkisme og retensio testis eksl. simpel orkiopeksi

1993

KGH 60(OPERATIO PRO HYPOSPADIA)

KGH 10(OPERATIO PRO PHIMOSIS)

KKFH10 Orkiopeksi

KKFHOO Operation for kryptorkisme og retensio testis eksl. simpel orkiopeksi

Misdannelsesregister

d_diagdato, c_kromos, c_syndkrom

ICD 10                                                                                                           ICD 8

Q00-02 hjernebrok                                                                                               740-41

Q05  Spaltning af rygsøjle

Q53  Manglende nedsynkning af testikler                                                      752

Q54  Hypospadi

Q64 HYP.FEMINAE                                                                                         753

Q72-74      Mangelfuld udvikling af underekstremitet eller arme og ben           755

Fødselsregistret

Fødselsvægt (v_vagt)

Gestationslængde (k_fuldb)

Levende eller dødfødsel (k_dodfu)

Køn (k_sex)

Længde (v_langde)

Antal børn i fødsel (v_antal)

Tidligere graviditeter (v_tidllev)

Abortregistret

v_CPR     kvindens CPR-nummer

d_ambdto  dato for ambulant indgreb


September – Oktober 2005: Foreløbig udtræksanmodning indsendes sammen med dokumentation af projektets godkendelse fra Datatilsynet. Herefter pågår revidering og endelig formulering af udtræksbeskrivelse i samarbejde mellem projektlederen og Forskerserviceenheden.

26. oktober 2005.: Endelig udtræksanmodning indsendes til Forskerserviceenheden.

4. november 2005: Forespørgsel på tidsperspektiv i sagen.

30. november 2005.: Svar fra Forskerserviceenheden: Data kan først leveres i løbet af januar efter indhentning af udtalelse fra Datatilsynet / Det lægelige råd. Samtidig anmodes Datatilsynet af Sundhedsstyrelsen om tilladelse til videregivelse af data til projektet.

7. december 2005: Accept af tilbud og forespørgsel i Sundhedsstyrelsen vedr. sagens status.

13. december 2005.: Svar fra Sundhedsstyrelsen, hvor det pointeres, at sagsbehandlingstiden pga. udtrækkets kompleksitet tager længere tid end Forskerserviceenhedens målsætning, der er 2 måneder fra endelig udtræksanmodning.

14. december 2005: Sundhedsstyrelsen modtager udtalelse fra Datatilsynet vedr. tilladelsen til videregivelse af de anmodede oplysninger.

6. januar 2006: Sundhedsstyrelsen meddeler projektlederen, at anmodningen om data til projektet kan imødekommes.

19. januar 2006: Det endelige udtræk modtages med posten.

8. februar 2006: Der rettes henvendelse til Forskerserviceenheden mhp. afklaring af manglende fødselsdatoer for dødfødsler.

10. februar 2006: Tillægsudtrækket indeholdende fødselsdatoer for alle fødsler i Fødselsregisteret modtages med posten.

Data blev leveret som SAS datafil på CD-rom. Data fra Cancerregisteret er kodet efter WHO’s officielle ICD-7 klassifikation fra 1955. Trods klassifikationens høje alder fungerer kodningen godt til et projekt af denne type, da det alene er et spørgsmål om kodning på 3. ciffer i koden.

Misdannelsesregisteret viste sig at være besværligt at anvende, idet kodningen ikke følger de normale ICD-koder. I stedet er der anvendt en specialgenereret kodeliste, der ikke eksisterer elektronisk. Den nuværende registrering via Landspatientregisteret er kodet med ICD-koder. Dokumentation af de enkelte registre kan downloades fra Sundhedsstyrelsen hjemmeside.

Databearbejdning af medfødte misdannelser kompliceredes af, at undersøgelsesperioden omfatter flere skift i registreringen i de pågældende registre. Problemerne var især i forhold til samkøring af registrene, hvilket er beskrevet i afsnit 6.2. Databehandlingen i forbindelse med anvendelse af Misdannelsesregisteret besværliggøredes desuden af opbygningen af registeret, hvor 10 sideordnede kolonner indeholdt koder for forskellige misdannelser, linket til det samme CPR-nummer. Dette betød, at såfremt der ønskedes en population med en bestemt misdannelse, skulle 10 kolonner gennemsøges for den pågældende misdannelseskode.

I forhold til Fødselsregisteret blev projektgruppen desuden opmærksom på, at der skal anmodes specifikt om fødselsdato, idet dødfødte ikke tildeles CPR-nummer, hvorfor dødfødslerne ikke kan placeres tidsmæssigt vha. CPR-nummerets datoopbygning. Da dette ikke var gjort i den oprindelige udtræksbeskrivelse, var det nødvendigt med et tillægsudtræk, som blev ekspederet meget hurtigt i Sundhedsstyrelsen.

4.2 Samkøring af registre

I forbindelse med samkøring af forskellige registre opdages altid uregelmæssigheder, der ikke umiddelbart lader sig afdække i det enkelte register. Disse uregelmæssigheder opstår ofte med baggrund i enten manglende oplysninger i enkelte registre, eller forskelle i registrering af den samme variabel i flere forskellige registre. I nærværende tilfælde er det især i forhold til samkøring mellem CPR-registeret og adresseregisteret, det der med en geografisk term kaldes geokodning. Geokodningen består i oprettelse af en reference mellem et registre med de variable, der skal indgå i en analyse og et register med tilhørende koordinater. Herved er det muligt at placere de enkelte oplysninger fra registrene i en geografisk ramme, eller mere simpelt, på et kort. I nærværende projekt er de geokodede variable den nuværende og tidligere befolkning i Danmark.

Populationen i nærværende projekt er afgrænset til personer, der bor eller har boet på adresse i landområde. I forbindelse med projekter af denne art er det selvfølgelig ønskværdigt at vide hvor stor en andel af populationen, der falder fra i forbindelse med samkøring, men i dette tilfælde har dette ikke været muligt. Grunden til dette ligger i definitionen af populationen, idet det ikke er muligt at vide om personer, der ikke er blevet geokodet, er bosiddende i by- eller landområde. I stedet er der lavet en kort oversigt over det totale frafald ved samkøring af hele CPR-registeret og hele adresseregisteret, idet denne kobling er vurderet til at have betydning for alle projekter, der ønsker at arbejde med geografisk relaterede sundhedsprojekter.

En oversigt over frafaldet kan ses af nedenstående tabel (tabel 3). Tabellen skelner mellem aktuelle data, historiske data og arkiv data fra CPR registret der dækker henholdsvis aktuelle data, data fra 1986 til 2005 og data fra før 1986.

Tabel 3
En oversigt over frafald ved sammenkobling af CPR og BBR registret

CPR registret Geokodet (%) Ikke geokodet (%)
Aktuelle data 99,5 0,5
Historiske data 92,6 7,4
Arkiv data 38,1 61,9

Som det fremgår af tabellen, er datakvaliteten tilbage til 1986 god, mens tidligere data har en markant dårligere kvalitet. Grunden til dette er formodentlig hovedsagligt registreringen af husnummer i CPR-registeret, idet huse på landet ikke var tildelt husnummer i de første år af CPR-registerets levetid. Herved kan der ikke matches til adresseregisteret, idet alle adresser i adresseregisteret er aktuelle adresser og dermed tilknyttet husnummer. En anden fejlkilde er nedlæggelsen af gamle adresser. En analyse af adressekoden for den del, af data der ikke kunne geokodes, kan ses af nedenstående tabel (tabel 4).


Tabel 4
Andelen af CPR numre for aktuelle, historiske og arkiv data i CPR registret der kan linkes til en adresse i BBR registret.

CPR Registeret Fuldstændig adresse (%) Ufuldstændig adresse (%)
Aktuelle data 100,0 0,0
Historiske data 56,7 43,3
Arkiv data 43,1 56,9

Samkøring mellem de administrative registre (CPR-registeret, BBR-registeret og GEUS jordtype-data) og de sundhedsfaglige registre (Cancerregisteret, Fødselsregisteret, Misdannelsesregisteret og Landspatientregisteret) var vanskelig. De sundhedsfaglige registre er meget forskelligt opbygget, hvilket formodentlig har basis i deres forskellige formål. Cancerregisteret havde kontinuerlig registrering. I nærværende projekt er der kun arbejdet med cancerdiagnoser fra efter 1. januar 1986, men anvendelse af ICD-kodesystemet og fastholdelsen af samme årgang af ICD-koderne i registeret (ICD-7) betyder, at databearbejdningen mindskes betydeligt. Derimod var der ændringer i registreringen gennem undersøgelsesperioden i Fødsels- Misdannelses- og Landspatientregistret, ikke kun i diagnosekodningen, men i hele registeropbygningen. Det betød, at der var et betydeligt arbejde i at harmonisere data inden det endelige datasæt til analyse af forekomsten af medfødte misdannelser kunne genereres. Et eksempel herpå er f.eks., at fødselsdatoer for dødfødte ikke pr. automatik inkluderes i et udtræk fra Fødselsregisteret.

 



Version 1.0 Oktober 2007, © Miljøstyrelsen.