Strategier for kortlægning af diffus jordforurening i byområder 5 DatabehandlingVed databehandlingen vurderes, om hypoteserne vedrørende forureningsforhold kan dokumenteres. Data fra den historiske redegørelse og evt. tidligere data medtages i databehandlingen. Der er tre formål med databehandlingen:
Da formålet med projektet er at forenkle kortlægningen af arealer med diffus jordforurening, skal undersøgelsesstrategierne dokumentere, at der er en høj grad af sikkerhed for, at “et areal som helhed er forurenet”, og at man kan interpolere mellem målepunkter og være sikker på, at jorden her også er forurenet. Dette kræver bevis for “et sammenhængende forureningsmønster og en sammenhængende arealanvendelsesmæssig historik”, samt for, at arealet er forurenet (dvs. at et flertal af målinger overskrider jordkvalitetskriteriet, JKK). Derfor er det vigtigt at kontrollere, at der er overensstemmelse mellem den konceptuelle model og de aktuelle forureningsdata. Endvidere kan den geostatistiske databehandling anvendes til vurdering af sandsynligheden for overskridelse af en vilkårlig koncentrationsgrænse, f.eks. et afskæringskriterium (ASK) eller en anden grænseværdi. Som grundlag for databehandlingen anbefales anvendt metoder fra en amerikanske US EPA rapport om dataanalyse /14/. 5.1 Vurdering af ensartede forureningsniveauerFor diffus jordforurening, som kan beskrives med bidragsmodellen, fyldjordmodellen eller overflademodellen vil der kunne forventes en ensartede, eventuel varierende og tilfældig belastning af topjorden. I datarapporten for kulturlag er der angivet eksempler på databehandling /4/. Deskriptiv statistikI datarapporten om kulturlag /4/ er der givet en detaljeret beskrivelse af databehandlingen, og redegjort for datahåndtering - bl.a. beregning af gennemsnit og median - i tilfælde af kun få datapunkter, og af prøver, hvor intet er påvist. Såfremt der er flere end 7 værdier anbefales det, at følgende værdier for alle parametre i alle dybder beregnes og angives, jf. tabel 5.1:
Overskridelse af henholdsvis JKK og ASK kan vises med en markering, således at man f.eks. direkte kan aflæse, om 90% af dataene (0,9 fraktil) er under eller over JKK, eller om forureningsniveauet stiger eller falder i dybden.
i.p.: ikke påvist gns.: gennemsnit
Tabel 5.1 Eksempel af en tabel over resultater (mg/kg TS). Example of a table with results. Hvis gennemsnittet og 0,5 fraktil (medianværdien) er forskellige, er der tale om en asymmetrisk fordeling – men hvis der f.eks. findes enkelte høje værdier, vil gennemsnittet være højere end median. Gennemsnittet vurderes ikke altid at være repræsentativt for diffust forurenede arealer, idet et gennemsnit i teorien kun kan anvendes til at beskrive data, der er normalfordelte (en fordeling af høje og lave værdier, der er symmetriske omkring en gennemsnitsværdi). Data kan desuden vises som et fraktilplot, jf. figur 5.1, hvor alle datapunkter vises. Figur 5.1 Eksempel på et fraktilplot for bly Hvis dataene er normalfordelte (symmetriske omkring gennemsnittet), vil et fraktilplot have en S-form med en relativt flad sektion i midten. Derimod vil en stor spredning i koncentrationsniveauet betyde, at kurven stiger brat. Hvis dataene er asymmetriske med en lang hale (høje værdier) til højre, ses en stejl stigning i den øverste højre del af kurven i forhold til den nederste venstre del, jf. figur 5.1. Desuden kan der tegnes tematiske kort som viser koncentrationer i de enkelte målepunkter. Kortene illustrerer eventuelle tendenser til stigende eller faldende forureningsniveauer over undersøgelsesarealet, jf. figur 5.2. Figur 5.2 Kort over blymålinger i 10 cm’s dybde Hvis et sæt prøver repræsenterer punkter fra en normalfordeling, kan resultaterne beskrives ved gennemsnit og varians (symmetrisk spredning af data på hver side af gennemsnittet). Et sæt prøver fra en normalfordeling vil i praksis være begrænset til en endelig størrelse og vil derfor være t-fordelt. Histogrammerne for såvel en normalfordeling som t-fordeling illustreres i figur 5.3. Figur 5.3 Histogrammer for en normal- og en t-fordeling Miljødata viser derimod ofte en asymmetrisk fordeling af værdier med en lang hale til højre på fordelingen (høje værdier), jf. figur 5.4. Dette betyder, at forudsætningen ikke er opfyldt for mange statistiske standardtests. Da funktionen Y=ln(X) for lognormale data er normalfordelt, kan en logaritme- transformation af værdierne betyde, at dataene bliver tilnærmelsesvis normalfordelte. En sådan transformation er nødvendigt, hvis der skal anvendes statistiske tests eller geostatistiske databehandlinger, idet disse forudsætter, at dataene er normalfordelt. Figur 5.4 Histogrammer for lognormalfordelinger Derfor bør det vurderes om dataene er normal- eller lognormalfordelte ved en Shapiro-Wilk (W) test. Testen bygger på korrelationen imellem fraktilerne i en standard normalfordeling samt på de rangordnede værdier i datasættet. Den er dermed direkte relateret til det Q-Q-plot, der er beskrevet herunder. Nulhypotesen for Shapiro-Wilk testen er, at den sande fordeling er en normalfordeling. Sandsynligheden (p) for det aktuelle udfald af hver test angives. Ved p< 0,05 er testen signifikant og nulhypotesen forkastes, dvs. at datafordelingen ikke er normalfordelt. Der kan desuden anvendes visuelle grafiske teknikker (fraktilplot, histogram, eller Q-Q-plot, jf. figur 5,1, 5.5 og 5.6). For et normal-Q-Q-plot plottes data i forhold til fraktilerne i en normalfordeling. Dette svarer til at plotte data på normalfordelingspapir. Her er blot som x-akse anvendt teoretiske variabler i en standard normalfordeling frem for fraktiler. Disse akser er lineære og kan bedre håndteres af et elektronisk medie. For en ideel normalfordelt variabel vil punkterne ligge på en ret linie. Ekstreme værdier eller såkaldte “outliers” - afvigende punkter - kan identificeres ved deres beliggenhed langt fra denne linie. En prøve fra en normalfordeling vil i praksis være begrænset til en endelig størrelse, og vil derfor være t-fordelt og udgøre en svag s-form i plottet. En udpræget s-form betyder imidlertid, at fordelingen har længere haler end normal- eller t-fordelingen. En U-form betyder, at fordelingen er skæv i forhold til en normal- eller t-fordeling. Figur 5.5 Eksempel på et histogram for logaritme-transformerede værdier for bly Figur 5.6 Eksempel på et Q-Q-plot for logaritmetransformerede blydata Ved at identificere afvigende punkter kan disse vurderes i henhold til deres fysiske position i undersøgelsesarealet og delområdets historik. Herefter kan det overvejes at fjerne et datapunkt eller at opdele dataene i subgrupper, svarende til et mindre delområde med et mere sammenhængende forureningsniveau. Til vurdering af, hvorvidt data i f.eks. forskellige dybder eller fra forskellige delområder er forskellige fra hinanden, anbefales en non-parametrisk test, “Wilcoxon Rank Sum Test”, såfremt fordelingerne ikke er normalt fordelt. Til sammenligning af gennemsnitsværdier kan der for normal eller lognormalfordelte data anvendes en t-test. Sandsynligheden for overskridelse af JKK og ASK kan beregnes på basis af t-fordelingen. Den deskriptive statistik giver et overblik over forureningsniveauet for de enkelte områder, men siger ikke noget om rumlige (spatielle) tendenser (f.eks. at forureningsniveauet aftager i en vis retning). GeostatistikDen geostatistiske analyse gør det muligt at estimere koncentrationerne over et område ved hjælp af kriging, samt usikkerheden af estimatet. Ligeledes kan sandsynligheden for, om jorden på et givet sted i området ligger over jordkvalitetskriteriet og under afskæringskriteriet beregnes. Men det er dog ikke alle områder, der er egnet til geostatistisk analyse. For eksempel kan det være svært at påvise spatiel korrelation på arealer, der er mindre end 0,2 km² og hvor der er indsamlet mindre end 40 datapunkter, især for arealer med stor inhomogenitet. Geostatistisk databehandling beregner forskelle i variansen mellem dataværdier, lokaliseret i forskellig afstand af hinanden. Alle data inden for forskellige afstandsintervaller (lag), f.eks. 0 - 25, 25 - 50, 50 - 75 m osv. sammenlignes parvis. Herefter laves et XY-plot af forskellen i variansen mod afstanden. Et XY-plot er vist i figur 5.7. Figuren kaldes et eksperimentalt semivariogram. Ved at vælge forskellige lagintervaller, ændres det eksperimentale semivariograms udseende. Det er således vigtigt at foretage følsomhedsberegninger og vælge realistiske lagintervaller i forhold til områdets størrelse og forventningen om forureningsspredningen. Figur 5.7 Et semivariogram Geostatistikken bygger på, at målinger på prøver, der er udtaget tæt på hinanden, er mere ensartede end målinger på prøver, der er udtaget med større afstand. Målingerne siges, at være “korrelerede” inden for en vis afstand. Denne afstandskorrelation betegnes i det følgende som spatiel korrelation. Det kan i praksis ofte være vanskeligt at afgøre, om den undersøgte parameter opfylder de forudsatte antagelser og betingelser for den geostatistiske analyse. Det gælder ikke mindst antagelsen om normalfordelingen. Normalfordelingskravet kan undersøges med de metoder, der er nævnt i ovenstående afsnit om anvendte deskriptive metoder. Som det ofte er tilfældet med mange naturlige stokastiske variabler, er geokemiske data ofte lognormalfordelte. Det betyder, at det er nødvendigt at logaritme-transformere de pågældende parametre før analysen. Den estimerede koncentration og konfidensintervallet skal derfor tilbagetransformeres, før de kan anvendes ved kortlægning. Ved denne procedure introduceres en uundgåelig bias, der ses som et skævt konfidensinterval, med en forholdsvis høj øvre grænse. På trods af logaritmisk transformering af data forekommer der på grund af ekstreme værdier i flere tilfælde afvigelser fra normalfordelingen. I sådanne tilfælde kan datafordelingen undersøges isoleret i de forskellige delområder. Såfremt betingelserne for en normalfordeling er tilnærmelsesvis opfyldt i disse delområder, anses det for forsvarligt at udføre analysen for området som helhed. Det kan ligeledes være nødvendigt med en særskilt undersøgelse af semivariogrammerne inden for forskellige delområder, idet variogrammet kan ændre karakter inden for det undersøgte område. Validering af den spatielle korrelation, som anvist af den valgte teoretiske model, kan testes med Moran's I-test. Testen er imidlertid tidskrævende og ikke særlig følsom, hvorfor der oftest anvendes grafiske metoder. Flere simple plot og grafiske afbildninger er relevante forud for konstruktionen af semivariogrammet. Der bør foretages følgende aktiviteter:
Scatterplot af kvadrerede differencer plottet mod afstanden mellem punktobservationer kan bidrage til et grundlæggende og simpelt billede af den spatielle korrelation, samt med informationer om den geografiske skala for variationen. Hvis der er en spatiel korrelation, må det forventes, at de kvadrerede differencer vokser med afstanden imellem prøvepunkterne. Et scatterplot illustreres i figur 5.8. Figur 5.8 Eksempel af et scatterplot af afstande og kvadrerede differencer imellem logaritmisk transformerede koncentrationer i parvise prøvepunkter for bly. Ved spatiel korrelation må der forventes en positiv korrelation imellem de kvadrerede differencer og afstande. En sådan korrelation kan evt. testes med Spearmans korrelationskoefficient, der er velegnet til at vurdere voksende (monotone) stokastiske funktioner. Spearmans korrelationskoefficient-test er en såkaldt “fordelingsfrit” rangtest. I figur 5.9 vises et aktuelt semivariogram fra afprøvning af strategierne i testarealerne. Figur 5.9 Eksempel af et semivariogram for logaritme-transformerede blydata. Ved evalueringen af variogrammet er det især vigtigt at evaluere de punkter i semivariogrammet, som viser større eller mindre hop eller dyk i estimerede semivarianser, idet disse også kan påpege særlige spatielle forhold på det undersøgte område (en vej, et areal med andet forureningsmønster m.fl.). Disse afvigelser er dog kun relevante, hvis de ses inden for den korrelerede range for varians (mindre end 300 m i figur 5.7). Større eller mindre hop eller dyk i estimerede semivarianser ved større “lag-afstand” end “range” kan snarere skyldes tilfældige irrelevante forhold end de egenskaber, der er knyttet til den spatielle variation. Det kan være vanskeligt at vurdere, om semivariansen er en entydigt voksende funktion, især når nugget udgør en betydelig del af den totale variation, som det ofte kan være tilfældet ved diffus jordforurening. Endelig er det vigtigt at vurdere, hvilken indflydelse ekstreme værdier har på variogrammet. Den mest sårbare kombination er ekstreme værdier kombineret med ekstrem beliggenhed. Variogrammet kan evt. konstrueres både med og uden disse værdier. Beregning af sandsynlighed som grundlag for kortlægningEt væsentligt resultat af den statistiske databehandling er muligheden for beregning af sandsynligheden for, at:
Det vil sige, at man skal være sikker på disse forhold, før man kan tage beslutning om kortlægning på Vidensniveau 2 og videre tiltag. Ad 1. Det er vigtigt at være sikker på, at der en vis sandsynlighed for, at jorden et givet sted i delområdet overskrider JKK, idet man ikke vil kortlægge på et ubegrundet grundlag. Ad 2. Det er vigtigt at være sikker på, at der er en vis sandsynlighed for, at forureningsniveauet et givet sted i delområdet er mindre end afskæringskriteriet. Det er i forbindelse med kortlægning af diffus jordforurening nødvendigt med en administrativ beslutning om, hvilken grad af sandsynlighed, der er nødvendig ved disse to beslutninger. Her skelnes mellem kortlægning på ejendomsniveau, hvor der indsamles data om en aktuel matrikel, og kortlægning af arealer med et fælles forureningsmønster. Geostatistik anvendes til at beregne sandsynligheden for, om jorden på et givet sted i området ligger over jordkvalitetskriteriet eller under afskæringskriteriet. Men det er dog ikke alle områder, der er egnet til en geostatistisk analyse. For eksempel kan der ikke umiddelbart anvendes en geostatistisk behandling for jordforurening, som kan beskrives med en liniemodel, dvs. diffus jordforurening fra trafikken, idet der vil være behov for flere målepunkter tæt på vejen end målt ved den anvendte strategi. Den geostatistiske databehandling er opsummeret i figur 5.10. Klik her for at se Figur 5.10. Figur 5.10 Flowdiagram for geostatistik Trin I: Er data normal- eller lognormalfordelte?
Trin 2: Analyse af spatiel korrelation
Trin 3: Anvendelse af spatiel korrelation
Figur 5.11 Estimat for Bly -koncentration. Koncentration i målepunkter er anvist med en farveskala. JKK er 40 mg/kg TS Figur 5.12 Sandsynligheden (p) for at en prøve udtaget et givet sted er større end JKK. Bly -koncentrationen i prøvepunkterne er angivet eksakt. 5.2 Vurdering af forurening som aftager med afstand til kildenFor diffuse jordforureninger, som kan beskrives med nedfaldsmodellen forventes det, at jordforureningen aftager i styrke med afstanden fra den oprindelige punktkilde, og at nedfaldsarealet vil være afhængigt af vindforhold samt topografiske og fysiske forhold ved punktkilden. Jordforureningen forventes at aftage i dybden. Databehandling foretages efter samme principper som i afsnit 5.1, idet der kan anvendes geostatistisk databehandling. I datarapporten for industri er der angivet eksempler på denne type databehandling /6/. For diffus jordforurening, som kan beskrives med liniemodellen forventes det, at jordforureningen aftager i styrke vinkelret på liniekilden. Jordforureningen forventes, at aftage i dybden. Datapræsentation kan foretages efter samme principper som i afsnit 5.1, men i stedet for en geostatistisk databehandling anbefales en simpel grafisk præsentation af koncentrationerne i forhold til afstanden fra kilden. Det var i forbindelse med afprøvningen af strategierne ikke muligt at etablere en generel forklaringsmodel for koncentration og afstand fra veje, men en påvirkning fra trafikken ses typisk inden for en afstand af 10 – 20 m fra vejen med aftagende koncentrationer i dybden. I datarapporten for trafik er der angivet eksempler på denne type databehandling /5/.
|