Kortlægning af diffus jordforurening i byområder. Delrapport 3

Bilag B
Statistisk behandling af tidligere data vedrørende diffus jordforurening på Østerbro

Udarbejdet af JSA-Envirostat A/S

Indhold

1 Eksempel med data fra Østerbro
1.1 Deskriptiv statistik
1.2 Deskriptive plot
1.3 Geografisk korrelation af data
1.4  Variogrammer
1.5 Estimation og kriging
1.6 Konklusion
 

 

JSA-EnviroStat, v. Jens Strodl Andersen
Nivådal 45, DK-2990 Nivå
Internet: hjem.get2net.dk/jsa-envirostat
Email: jsa-envirostat@get2net.dk
Telefon: 49146787

1. Eksempel med data fra Østerbro

Data i dette eksempel stammer fra Østerbro /Miljøkontrollen, 1998/. Der er på 138 positioner målt koncentrationen af Bly og (17) PAH. Koordinaterne på positionerne er angivet i UTM og enheden er derfor meter. Der vil i det følgende blive beskrevet en spatiel analyse for Bly og PAH.

1.1 Deskriptiv statistik

Indledningsvis beskrives det generelle niveau. Det ofte ses ved analyse af jordforureningsdata at en logaritme transformation af værdierne gør at data bliver approksimativt normalfordelte. Der er derfor i nedenstående tabel 1 angivet deskriptive størrelser for både de målte værdier samt de logaritmerede (den naturlige logaritme) værdier

Tabel I
Deskriptive statistiske størrelser

Descriptive statistics

 

Bly

PAH

Loge(Bly)

Loge(PAH)

Minimum

9,00

0,130

2,20

-2,04

25% Fraktil

32,0

2,80

3,47

1,03

Middelværdi (gennemsnit)

88,6

16,9

4,08

1,72

Median (50% Fraktil)

65,0

5,25

4,17

1,66

75% Fraktil

120

11,6

4,79

2,45

Maksimum

740

981

6,61

6,89

Standard afvigelse (spredning)

95,5

83,6

0,904

1,22

Antal datapunkter

138

138

138

138

Korrelation

0.01

0.46

For de målte værdier bemærkes at der ikke er korrelation (r =0,01) mellem de målte værdier af Bly og PAH. Dette betyder at man ikke udfra værdien af Bly kan forudsige hvad værdien af PAH vil være (eller omvendt). Median for både Bly og PAH er lavt i forhold til middelværdi, hvilket indikerer asymmetrisk fordeling af værdierne med en lang højre (høje værdier) hale på fordelingen. Dette betyder at en transformation bør overvejes.

For de transformerede værdier ses en lille positiv korrelation. Medianen er nu for både Loge(Bly) og Loge(PAH) tættere på middelværdien hvilket indikerer at fordelingen ikke længere er så asymmetrisk.

Betragtes forholdet mellem middelværdi og spredning (variationskoefficienten) ses at spredningen er af betragtelig størrelse i forhold til middelværdien. Dette vil dog altid være tilfældet hvis der er enkelte høje koncentrationer.

Baseret på ovenstående vil de efterfølgende analyser blive foretaget på de logaritmerede data. Dette vil mindske betydningen af enkelte meget høje koncentrationer.

1.2 Deskriptive plot

Baseret på de deskriptive størrelser i forrige afsnit er i Figur I vist histogrammer (Densiteten) for henholdsvis Loge(Bly) i orange og Loge(PAH) i blå. Endvidere er den estimerede densitet plottet som en kurve i samme farve som histogrammet. Ingen af de to histogrammer afviger meget fra en sædvanlig "klokkeformet" normalfordeling.

Figur I
Histogrammer (Densiteten) for henholdsvis Loge(Bly) i orange og Loge(PAH) i blå. Endvidere er den estimerede densitet plottet son en kurve i samme farve som histogrammet. De afbildede histogrammer afhænger af valget af intervalbredde og kurven af estimationsmetoden.

Histograms (density) for the Loge(lead) in orange og Loge(PAH) in blue. Furthermore the estimated density is plotted as a curve for each histogram. The illustrated histograms are dependent on the choice of width for the interval and the method to estimate the curve.

For at yderligere visuelt at undersøge om de transformerede værdier er approksimativt normalfordelte plottes de transformerede værdier ofte mod fraktilerne i en normalfordeling. Dette er vist i fraktil plottet i Figur 2.

Det ses at data bortset fra enkelte ekstreme observationer (både lave og høje) er rimeligt beskrevet ved en normalfordeling. Dette kunne testes, men nytten af disse tests er begrænset (Andersen 1994).

Figur 2
Fraktil plot af Loge(Bly) i blå og Loge(PAH) i rød.
Fractile plot of Loge(lead) in blue and Loge(PAH) in red.

Korrelationen mellem Loge(Bly) og Loge(PAH) kan visualiseres med et plot af de to parametre mod hinanden. Korrelationen på 0,46 kan ses som en svag positiv tendens i Figur 3.

Figur 3
Plot af Loge(Bly) mod Loge(PAH). Enkelte ekstreme værdier kan observeres
Plot of Loge(lead) against Loge(PAH). Individual extreme values are noted.

1.3 Geografisk korrelation af data

Indledningsvis skal gives en række deskriptive størrelser for afstanden mellem observationerne, analogt med de deskriptive størrelser for de målte værdier. Det ses at de to observationer, der har den mindste indbyrdes afstand, er placeret med 31 meters afstand og den maksimale afstand er 1930 meter. Dette indebærer at det udelukkende er muligt at vurdere spatiele korrelation i dette interval.

Tabel 2
Deskriptive størrelser vedrørende observationerne
Descriptive sizes for the observations.

Afstande mellem punkter

X,Y- original (meter)

X,Y-beregning (km)

Minimum

31

0,031

25 % Fraktil

422

0,422

Middel (gennemsnit)

730

0,73

Median

683

0,683

75 % Fraktil

996

0,996

Maksimum

1930

1,930

Før positioner og værdierne for henholdsvis Loge(Bly) og Loge(PAH) plottes beregnes Moran's I for at få et førstehånds indtryk af den geografiske korrelation. Hypotesen der testes for Moran's I er: "Ingen spatiel korrelation", dvs det antages at data er uafhængige af geografien (afstanden). Er p-værdien meget lille befinder man sig langt ude i halen af fordelingen og hypotesen forkastes og er p-værdien større er der ingen spatiel korrelation. Den kritiske p-værdi vælges standard til p=0,05. Beregningerne ses i Tabel 3.

Tabel 3
Mål for geografisk korrelation, P-værdierne indikerer at der ikke er nogen geografisk (afstands) korrelation
Values for the geographical correlation. P-value indicates that there is no geographical (distance) correlation.

 

Loge(Bly)

Loge(PAH)

Moran's I

0,0457

0,0266

P-værdi

0,0577

0,224

Hverken Loge(Bly) eller Loge(PAH) ser umiddelbart ud til at udvise spatiel korrelation (p>0,05). Det betyder at en observation ikke er mere lig dets naboobservationer end observationer længere væk.

Dette er ikke noget bevis for at der ikke er spatiel korrelation, det ser bare ikke ud til at den kan diagnosticeres udfra de observationer (afstanden mellem dem) der er foretaget.

Den mulige spatielle korrelation vil nu blive undersøgt nærmere med flere diagnostiske plot af data. I Figur 4 Loge(Bly) og Figur 5 Loge(PAH) er vist fire grafer.

Øverst til venstre: Plot af positionerne med følgende farve og symbol kode Blå cirkel [0:25] % fraktil, Grøn trekant [25-50] % fraktil, Gult plus [50:75] % fraktil, Rødt kryds[75:100] % fraktil
   
Øverst til højre: Stavplot af værdier og deres positioner
  
Nederst til højre: Plot af værdier mod x-koordinaten
  
Nederst til venstre: Plot af værdier mod y-koordinaten

Figur 4
Loge(Bly) : Blå [0:25]% Fraktil, Grøn [25-50]% Fraktil, Gul[50:75]% Fraktil, Rød[75:100]% Fraktil

Loge(lead) : Blue [0:25]% Fractile, Green [25-50]% Fractile, yellow[50:75]% Fractile, Red[75:100]% Fractile.

Der kan ikke umiddelbart diagnosticeres nogen spatielle strukturer udfra Figur 4. Høje og lave værdier ser ud til at være spredt tilfældigt mellem hinanden. Der observeres heller ikke nogen umiddelbare trends i projektionerne på henholdsvis x- og y-koordinaterne (nederst)

Figur 5
Loge(PAH) : Blå [0:25]% Fraktil, Grøn [25-50]% Fraktil, Gul[50:75]% Fraktil, Rød[75:100]% Fraktil

Loge(PAH) : Blue [0:25]% Fractile, Green [25-50]% Fractile, Yellow [50:75]% Fractile, Red [75:100]% Fractile

Der kan ikke umiddelbart diagnosticeres nogen spatielle strukturer udfra Figur 5. Høje og lave værdier ser ud til at være spredt tilfældigt mellem hinanden. Der observeres heller ikke nogen umiddelbare trends i projektionerne på henholdsvis x- og y-koordinaterne (nederst)

1.4 Variogrammer

I det følgende beskrives variogrammer for henholdsvis Loge(Bly) og Loge(PAH). Betydningen af valget intervaller hvori variansen beregnes fremgår af nedenstående plot af variogrammet for Loge(Bly).

Den sorte kurve er den maksimale afstand sat til 1,1 km med 10 intervaller. Den blå kurve er den maksimale afstand sat til 1,0 km med 10 intervaller. Den røde kurve er den maksimale afstand sat til 0,8 km med 10 intervaller. Den grønne kurve er den maksimale afstand sat til 0,5 km med 10 intervaller.

Det bemærkes at det visuelle indtryk af nugget effekten ændres ved forskelligt valg af maksimal afstande med samme antal punkter (Blå~0,18 ; Sort~0.45, Grøn~0,7 og Rød~0,8). Vælges en af disse værdier arbitrært vil det få meget stor indflydelse på usikkerheden på estimationen. Skal der estimeres en variogramkurve gøres dette normalt ved vægtet ikke-lineær regression. Vægten består i antallet af punkt-par der ligger til grund for den beregnede varians i et interval. For den sorte kurve er antallet af punkt-par i de ti intervaller:[10, 456, 877, 1093, 1119, 1080, 1043, 919, 759, 612]. Foretages den vægtede regression findes der ikke nogen spatiel korrelation (for nogen af de 4 valg). Betragtes grafen på ny skal hele den spatielle korrelation ekstraheres fra ét usikkert bestemt punkt (det der ligger udenfor ellipsen.). Dermed bliver det bedste bud på variationen det simple estimat fra de indledende deskriptive analyser: s 2=0.9042=0.82 (stiplet linje). Retningsbestemte variogrammer (0° , 45° , 90° , 135° ) er endvidere estimeret, dette gav ikke nogen ændring i resultatet (data ikke vist).

Figur 6
Variogram Loge(Bly) : Sort Distmax=1,1 km, Blå Distmax=1,0 km, Rød Distmax=0,8 km, Grøn Distmax=0,5 km. Alle har 10 intervaller.
Variogram Loge(lead) : Black Distmax=1,1 km, Blue Distmax=1,0 km, Red Distmax=0,8 km, Green Distmax=0,5 km. All have 10 intervals.

Betydningen af valget intervaller hvori variansen beregnes ligeledes af nedenstående plot af variogrammet for Loge(PAH).

Den sorte kurve er den maksimale afstand sat til 1,1 km med 10 intervaller. Den blå kurve er den maksimale afstand sat til 1,0 km med 10 intervaller. Den røde kurve er den maksimale afstand sat til 0,8 km med 10 intervaller. Den grønne kurve er den maksimale afstand sat til 0,5 km med 10 intervaller.

Det bemærkes at det visuelle indtryk af nugget effekten ændres ved forskelligt valg af maksimal afstande med samme antal punkter (Blå~0,75 ; Sort~0.60, Grøn~1,0 og Rød~1,2). Vælges en af disse værdier arbitrært vil det få meget stor indflydelse på usikkerheden på estimationen. Skal der estimeres en variogramkurve gøres dette normalt ved vægtet ikke-lineær regression. Vægten består i antallet af punkter der ligger til grund for den beregnede varians i et interval. For den sorte kurve er antallet af punkter i de ti intervaller:[10, 456, 877, 1093, 1119, 1080, 1043, 919, 759, 612]. Foretages den vægtede regression findes der ikke nogen spatiel korrelation (for nogen af valgene).

Betragtes grafen påny skal hele den spatielle korrelation ekstraheres fra ét usikkert bestemt punkt (det der ligger udenfor ellipsen.). Dermed bliver det bedste bud på variationen det simple estimat fra de indledende deskriptive analyser: s 2=1,222=1,49 (stiplet linje).

Retningsbestemte variogrammer (0° , 45° , 90° , 135° )er endvidere estimeret, dette gav ikke nogen ændring i resultatet (data ikke vist).

Figur 7
Variogram Loge(PAH) : Sort Distmax=1,1 km, Blå Distmax=1,0 km, Rød Distmax=0,8 km, Grøn Distmax=0,5 km. Alle har 10 intervaller.
Variogram Loge(PAH) : Black Distmax=1,1 km, Blue Distmax=1,0 km, Red Distmax=0,8 km, Green Distmax=0,5 km. All have 10 intervals.

1.5 Estimation og kriging

Da der ikke er nogen signifikant spatiel korrelation, beskrives data bedst ud fra de deskriptive størrelse angivet i starten af analysen. Antages normalfordeling af de logaritmerede værdier vil estimatet for koncentrationen samt et 95% konfidensinterval for en prøve et vilkårligt sted være:

 

Bly

PAH

Estimat

e4,08 = 59,1 mg Pb / g TS

e1,72 = 5,58 mg (17) PAH / g TS

95 % kon-
fidensinterval

[e4,08-1,96*0,904; e4,08+1,96*0,904]=
[10,1;348] mg Pb / g TS

[e1,72-1,96*1,22;
e1,72+1,96*1,22]=
[0,511;61,0] mg (17) PAH / g TS

For bly er der to værdier der er lavere en konfidensintervallet, endvidere er der 3 værdier der er højere. Dette er fint i overensstemmelse med en konfidensgrad på 95% (0,05*138» 7).

For PAH er der 3 værdier under nedre konfidensgrænse og 3 over øvre konfidensgrænse.

1.6 Konklusion

Analyserne i dette bilag understøtter betragtningerne i design afsnittet. Der blev ikke fundet nogen spatiel korrelation indenfor den forsøgsplan der er opstillet. Det betyder ikke at der ikke er spatiel korrelation, den forekommer højst sandsynligt på en mindre skala end den anvendte i dette design. Det ville have været meget værdifuldt med en række observationer med en indbyrdes afstand mindre end 31 m. Med 138 prøver burde et antal kunne benyttes til lokal variation.

Software der i situationer som denne automatisk anvender geostatistiske værktøjer til estimationen ved at foretages en vægtning af nabo observationerne, for eksempel nærmeste naboer eller kvadratisk afhængighed af afstanden, kan ikke understøttes af de målte værdier og må derfor betragtes som gætteri. Nedenstående graf kunne være ét eksempel på et automatisk genereret plot af koncentrationsniveauet, plottet er ganske flot men afspejler ikke den information der er i data og må derfor betragtes som grænsende til ubrugeligt.

Figur 8
Interpoleret plot af Loge(Bly) : xny og yny er i meter og 0 angiver den mindste koordinat
Interpolation of plot for Loge(lead) : xny and yny are in meters and o shows the lowest co-ordinate