Luftforureningen og luftvejseffekter hos fynske børn

9 Bilag:

9.1 Statistisk model

Antag, at man til hvert tidspunkt t h<r målt en række covariater x1,t,…,xk,t samt en respons yt. I det foreliggende tilfælde, er yt antallet af indlæggelser og covariaterne xi,t er f.eks NOX koncentration, SO2 koncentration, temperatur, luftfugtighed, antal græs- eller birkepollen samt tid. Den anvendte model specificerer, at

yt | xi,s,i = 1,…,ks ≤ t ~ po(λt)

er uafhængige med:

log(λt) = ƒ10(x1,t) + … + ƒls(x1,t-s) + ƒ20(x2,t) + … + ƒks(xk,t-s)

hvor ƒit'erne er funktioner.

Modellen ovenfor er ikke fuldstændig specificeret, f.eks kan man højst bestemme funktionerne ƒit op til addition af en konstant. Typisk reparerer man dette, ved at indføre et konstantled samt kræve, at funktionerne summer til 0 over de observerede værdier af covariaterne, dvs. modellen bliver

log(λt) = α + ƒ10(x1,t) + … + ƒls(x1,t-s) + ƒ20(x2,t) + … + ƒks(xk,t-s)

hvor nu ∑ƒit = 0 for alle i.

Heller ikke denne restriktion er tilstrækkelig. I konkrete situationer vil man ofte være i stand til at fitte data perfekt, simpelthen fordi klassen af alle funktioner er for stor. Dette kan man så søge at reparere på forskellige måder. En mulighed er at reducere de mulige funktioner ƒit, ved at kræve at de ligger i et passende endelig dimensionalt rum. Traditionelle valg inkluderer trinvis konstante funktioner, polynomier og regressionssplines. En sådan model vil man sædvanligvis fitte ved at minimalisere den negative log-likelihood, hvor så ƒij'erne ligger i det valgte rum.

En mere fleksibel model opnås, hvis man istedet blot kræver at ƒit'erne skal være glatte funktioner, men dette leder igen tilbage til problemet med en for stor funktionklasse. En smart mulighed er her at begrænse de mest ekstreme funktioner i denne klasse, f.eks kan man straffe de mindre glatte funktioner. En måde at gøre dette er at indføre et strafled J(ƒij) til likelihood'en. Her skal J(ƒij) være valgt, så mere glatte funktioner giver mindre værdier af J(ƒij) end mindre glatte funktioner. Til et sådant valgt par, en familie af funktioner og et strafled, skal man så ikke længere minimalisere likelihooden, men istedet

l(ƒij , yt , xlt , … , xkt) + J(ƒij)

Pointen er, at man nu kan tillade en uendelig dimensional klasse af funktioner, hvilket giver mulighed for en mere nøjagtigt modellering.

I det forhåndenværende tilfælde, modelleres counts'ne yt som uafhængige poisson observationer, så udtrykket bliver:

ytlog(λt(x1,t , … , xk,t-s)) - λt(x1,t , … , xk,t-s) - log(yt!) + J(ƒ1,0 , … , ƒk,s)

9.1.1 Udglatningsparametre

Der er mange forslag til nøjagtigt hvilke funktionsklasser der skal anvendes, f.eks polynomier, polynomielle splines der er stykvis polynomielle funktioner begrænset af kontinuitets- og glathedsbetingelser i delepunkterne samt tensor splines til flerdimensionale kovariater. Mere komplicerede konstruktioner som thin-plate splines og tensor thin-plate splines er også anvendt.

I de foreliggende analyser er der anvendt såkaldt cykliske splines til

modellering af sæsoneffekten og kubiske splines til øvrige ikke

parametriske effekter.

Selv efter fastlæggelse af funktionklassen resterer det vigtigste valg, nemlig bestemmelsen af strafleddet. De selv samme funktioner, kan tilknyttes forskellige rest led, hvilket igen har direkte indflydelse på inferencen. Medens man selvfølgelig kan forestille sig vilkårligt indviklede straf led, er opbygningen dog oftest mere simpel:

- Til hvert led ƒij i=1,…k j=0,…s vælges en straf Jij

- En samlet straf konstrueres som J(ƒij) = ∑θijJij

Typisk er de enkelte straf led valgt, så de dobbelt afledte af funktionerne ikke bliver for store, fx kunne man have Jij = ∫(ƒ”(x))²dx

De nye parametre θij tjener til at afveje de enkelte led mod hinanden, men selv denne simplificering efterlader problemer i modelspecifikationen, for hvordan vælges strafparametrene θij. Med mere end bare et par funktioner bliver ad hoc metoder svære at håndtere. Der er behov for en datadrevet procedure. En mulighed er, at forsøge en minimering af en størrelse der på passende måde måler afstanden fra den fittede model til den rigtige, fx den symmetriske Kullback-Leibler afstand

1/n ∑(λt(θ) - λt) (log(λt(θ)) - log(λt))

hvor λt(θ) er det til θij'erne hørende estimat til tid t og λt er den sande værdi til tid t. Eftersom de sande λt'er jo er ukendte, må man forlade sig på at minimere et estimat af ovenstående størrelse. I [Wood, 2000] anvendes følgende algoritme:

- Den 'straffede' likelihood approksimeres med en første ordens Taylorudvikling omkring λ0, hvilket erstatter leddet l(ƒij , yt , xlt , … , xkt) + J(ƒij) med et kvadratisk led.

- For faste valg af strafparametrene θij er minimeringen af denne approksimation et kvadratisk problem med kendt løsning, men spørgsmålet om hvilke strafparametre der skal anvendes resterer stadigvæk. Dette kan fx løses ved at minimalisere størrelsen

T(I - A)y˜ + 1/2tr(A)

hvor t = log(λ0) + y/λ0 - 1 og A er den af θij'erne afhængende matrice der minimerer den kvadratiske sum ovenfor. Begrundelsen for dette valg er bla. at i normalfordelingstilfældet er dette led en estimator for den symmetriske Kullback Leibler afstand. I denne situation kan man også intuitivt fortolke de to led som estimatorer af henholdsvis varians og bias.

- Grundet den oprindelige approksimation af indsættes de nu opnåede estimater af λt'erne og θij'erne i den kvadratiske tilnærmelse og det første skridt gentages.

Disse trin gentages nu indtil konvergens opnås. Der er indicier, men endnu intet bevis, for at de hermed fundne strafparametre approksimativt vil minimalisere den symmetriske Kullback Leibler afstand. Denne metode er implementeret i R-pakken mgcv og anvendt her.

Baysiansk tilgangsvinkel:

I den ovenstående tilgangsvinkel tillader man funktionerne ƒij at variere i et meget stort rum. Fitningen bliver så muliggjort af, at man vælger at staffe meget volatile funktioner i dette rum. Man kan sige, at hele modellen arbejder ud fra en a priori antagelse om, at funktioner er mere sandsynlige jo glattere de er.

Denne tankegang minder til forveksling om den der ligger bag Baysiansk statistik: Man starter med sine nuværende antagelser, der kan være mere eller mindre godt funderet, og ser hvordan de forhåndenværende data ændrer disse antagelser. Mere præcist betyder dette, at man opstiller en model for responsen yt og postulerer en (prior) fordeling på de ukendte parametre i denne. Fx kunne man vælge at opstille modellen

log(λt) = αNOXt-1 + ƒ(influenzat)

i hvilken parameteren α og funktionen ƒ( ) er ukendte og derfor skal tillægges fordelinger. Et muligt valg af fordelinger kunne være, at α var normaltfordelt med en middelværdi på 0.001 og en varians der selv følger en gammafordeling med stor varians. Disse valg afspejler i rimeligt omfang vores nuværende antagelser om parameteren α, nemlig at den forventede effekt er dårligt bestemt, men forventes at være omkring en promille. Funktionen ƒ( ) vil vi heller ikke tillade os at mene ret meget mere om end at den er nogenlunde glat.

Dette kan man formalisere ved at kræve at anden ordens differencerne

ƒ(influenzat) - 2ƒ(influenzat-1) + ƒ(influenzat-2)

ikke bliver alt for store. En mulighed kunne her igen være, at disse differencer er normaltfordelte med middelværdi 0 og en varians der igen følger en gammafordeling, der selv har stor varians som ovenfor. Her skal man så undersøge hvor meget det præcise valg af denne sidste varians i gammafordelingen påvirker estimationen i den oprindelige model.

Denne model er fittet med sammenlignelige resultater for enkelte forureningskomponenter.

9.2 Omregningsfaktorer

9.2.1 TSP → PM10

Hvis man ser på det spring der skete ved overgangen mellem TSP og PM10 så faldt niveauerne med ca 1/3 - så en omregningsfaktor på 0.67 er det bedste estimat for niveauerne af PM10 før disse målinger startede. Hvis man ser på hvad der faktisk opsamles med TSP metoden så er der tale om et cut-off som varierer noget med vindhastigheden fra PM25 op til PM80 i ekstreme tilfælde. www2.dmu.dk/1_Viden/2_miljoe-tilstand/3_luft/4_maalinger/5_niveauer/6_Partikler/partikler_generelt.asp

9.2.2 Mg/m³ → ppm

Ozon: 1,98 mikrogram O3/m³ per ppb

NO2: 1,9 mikrogram NO2/m³ per ppb

NO: 1,24 mikrogram NO/m³ per ppb

SO2: 1,33 mikrogram SO2/m³ per ppb

Benzen 3,5 mikrogram C6H6 per ppb

 



Version 1.0 Maj 2008, © Miljøstyrelsen.