Statistisk analyse og biologisk tolkning af toksicitetsdata

11 Generel diskussion

Vi har i denne rapport set på symmetriske og asymmetriske samt ikke-monotone sigmoide dosis-responskurver med øvre og nedre asymptotiske grænser. For at kunne beskrive en dosis-respons kurves forløb og få præcist bestemte parametre er det vigtigt at få hele kurveforløbet bestemt på grundlag af data. De fleste doseringskurver er enten monotont stigende eller aftagende, selv om der godt kan optræde modeller som enten viser stimulering eller hæmning ved lave doseringer.

Vedrørende brugen af dosis-responsforsøg i toksikologisk og økotoksikologisk sammenhæng viser denne rapport, at der rent teknisk og statistisk er et stort sammenfald i metoder. Principperne er de samme for de to discipliner, men ofte vil der være forskelle i forsøgsplanerne. I toksikologien kan der være kraftige restriktioner på antallet af doseringer og antallet af dyr af etiske eller økonomiske årsager. Det medfører, at man ofte kun har tre til fire doseringer til rådighed, eller at man simpelthen tester en dosering ad gangen, indtil man finder en målbar effekt. Traditionelt har man valgt at prioritere gentagelser inden for samme dosering frem for at ind anvende flere doseringer med færre eller ingen gentagelser. Dette princip er sandsynligvis indført for at reducere den variation i testresultaterne som skyldes intra-species variation i følsomhed, da det er særdeles bekosteligt at fremavle homogene populationer af forsøgsdyr. Desuden har den statistiske analyse normalt begrænset sig til variansanalyse, og her er gentagelser en forudsætning for at kunne udføre den statistiske analyse til bestemmelse af NOEL/LOEL. Hvis man, som vi anbefaler (se diskussion nedenfor), forlader brugen af NOEL/LOEL som endpoints i toksikologiske og økotoksikologiske tests skal gænge forsøgsprotokoller tages op til revision under hensyntagen til begrænsninger i antallet af forsøgsdyr, pladsmangel mv.. En oplagt mulighed for at optimere forsøgsplaner i forhold til givne ressourcer er at anvende flere doseringer på bekostning af antallet af gentagelser. Vore simuleringer viser klart, at den højeste præcision af relevante parameterestimater, f.eks. ED10 og ED50, fås ved at bruge flere doseringer på bekostning af gentagelser. I denne forbindelse har vi også behandlet problemet med udvælgelse af hvilke doseringer man bør benytte for at få den mest præcise beskrivelse af data. Valget må i alle tilfælde bygge på tidligere erfaringer med de pågældende pesticider og dermed en formodning om, hvorledes forløbet forventes at være af dosis-responskurven er. Dette understreger vigtigheden af at der udføres indledende screeningsforsøg til fastlæggelse af doseringer i de definitive test. Ved screeningsforsøg kan man igen drage fordel af at reducere antallet af gentagelser for at kunne dække et større spænd af doseringer. Efter analyser af screeningsforsøg kan den endelige dosringsrække fastlægges, og det skal nævnes at i langt de fleste af de forsøg vi har gennemgået har doseringerne være jævnt fordelt på en logaritmisk dosisakse i overensstemmelse med almindelig praksis ved design af toksikologiske og økotoksikologiske test (Finney, 1978).

Som nævnt gælder principperne for øget antal doseringer på bekostning af antallet af gentagelse kun, når analysen er baseret på dosis-responsanalyser med asymptotiske øvre nedre grænser. Hvis man ønsker at finde en NOEC/NOED eller LOEC/NOED (principperne herfor er ikke behandlet i nærværende rapport), gælder det, som ved alle parvise sammenligninger, om at have så mange gentagelser så muligt indenfor de enkelte doseringer. Kun herved er det muligt at detektere små forskelle i effekter med en variansanalyse. Der i dag er en righoldig litteratur, som dokumenterer fordelene ved brug af ikke-lineære analyser af toksicitetsdata frem for NOEC/LOEC (bl.a. Chapman and Caldwell 1996; Kooijman 1996), og ud fra et videnskabeligt synspunkt burde emnet dermed være uddebatteret. I den administrative anvendelse af toksikologiske og økotoksikologiske data ser man dog stadig at NOEC/LOEC anbefales som endpoints. Dette er f.eks. tilfældet selv i den nyeste revision af pesticid-lovgivningen 91/414 og dette altså på trods af den videnskabelige verdens afvisning af disse parametres brugbarhed. Der er således en stor træghed i at kuldkaste knæsatte principper i den administrative anvendelse af testresultaterne og dette har naturligvis en sammenhæng med at praktiske (f.eks. den store mængde af data der allerede findes, og som har fokuseret på NOEC/LOEC) såvel som politiske hensyn spiller en stor rolle forbindelse med udarbejdelser af standarder og guidelines. Det er dog projektgruppens forhåbning, at de øgede muligheder for statistisk fortolkning af ikke-lineære dosis-respons vil bidrage til at forsøgsplaner baseret på bestemmelse af NOEC/LOEC helt bortfalder i de internationale standarder og vejledninger.

Overordnet set er afrapporteringen af et dosis-responsforsøg den samme inden for toksikologi og økotoksikologi, og den bør som minimum indeholde dokumentation for, om den valgte model til beskrivelse af data reelt beskriver variationen i data på en tilfredsstillende måde. Når det drejer sig om normalfordelte data med gentagelser inden for doseringer kan en sammenligning mellem dosis-responsmodellen med en almindelig variansanalysemodel, give et fingerpeg om regressionsmodellen beskriver data tilfredsstillende. I de tilfælde, hvor man ikke har gentagelser, kan man som vist i rapporten benytte sig af en test baseret på kumulerede residualer. Selvom det kan synes trivelt, skal det dog alligevel understreges at en visuel bedømmelse altid skal indgå i en vurdering af, om en given model beskriver data tilfredsstillende.

De udførte analyser i denne rapport viser at der til bestemmelse af 50%’s effekt-værdier (LC50/LD50/EC50/ED50) ikke vil være stor forskel på, om man benytter en symmetrisk eller asymmetrisk kurve til at beskrive dosis-responsforløbet. Er man derimod interesseret i at bestemme de koncentrationer, hvor den toksiske virkning begynder at indtræde (ofte defineret som 10%’s effekt – LC10/LD10/EC10/ED10) kan der være betydelige forskelle afhængigt af modelvalget. Ofte ses det inden for såvel toksikologi som økotoksikologi, at valget mellem en symmetrisk model (f.eks. log-logistisk) eller asymmetrisk model (f.eks. Weibull) er et spørgsmål om tradition.  Hvis man har veldefinerede data med lille varians, viser de udførte analyser, at en asymmetrisk model bør afprøves da denne måske bedre vil kunne beskrive data end en symmetrisk. Med udgangspunkt i de tilvejebragte problemstillinger under dette projekt, er det dog vores erfaring, at variationen i data ofte vil være så stor det vil være af mindre betydning for estimationen af effektværdier om man vælger en symmetrisk eller asymmetrisk model. Dette er fundet uanset om høje eller lave effektniveauer skal estimeres.

Sammenligninger af dosis-responskurver, som er udført uafhængigt af hinanden enten i tid eller rum, udgør en særlig udfordring i forbindelse med den statistiske databehandling. Her viser vore analyser, at man med fordel kan benytte blandede ikke-lineære modeller, hvor der justeres for variationen fra kurve til kurve og dermed opnå et fælles estimat for en EDx/ECx værdi. Sådanne modeller kan også bruges til at analysere dosis-responskurver med gentagne målinger på samme individ. En rutinemæssig brug af disse blandede ikke-lineære modeller er desværre ikke tilgængelig i øjeblikket, fordi der ofte vil være problemer med konvergens i estimationen af den ikke-lineære regression.

For data opnået i forsøg med kontinuerte respons er det vigtigt, at der ikke er variansheterogenitet i datasættet. Normalt vil der være variansheterogenitet, hvis forskellen mellem maksimal og minimum respons er stor, f.eks. hvis maksimum er 4-5 gange større end minimum respons. Derfor skal man teste for variansheterogenitet ved statistisk analyse af kontinuerte data og tage højde for denne heterogenitet, hvis den kan påvises. I dette projekt har vi benyttet en såkaldt Box-Cox transformation af såvel højre som venstre side af regressionsmodellen. Erfaringen viser, at parameterestimaterne, herunder EC50 og EC10, ikke påvirkes synderlig af, om der er variansheterogenitet eller ej. Derimod vil estimationen af standardfejlen på parametrene blive påvirket. Da vurderinger af et stofs toksicitet og/eller økotoksicitet netop er en kombination af parameter estimatet (f.eks. EC50/EC10) og den tilhørende usikkerhed, kan det få vidtrækkende følge, hvis f.eks. den nedre 95% konfidensgrænse ikke er bestemt korrekt pga. at man ikke har taget højde for variansheterogenitet. Går man videre med den fejlagtigt estimeret værdi ved f.eks. fastsættelse af en grænseværdi er det dermed givet, at denne vil blive baseret på værdier, der ud fra et statistisk synspunkt ikke er holdbare.

Ved sammenligning af dosis-respons kurver støder man af og til på det problem, at de fundne kurver har forskellige øvre og/eller nedre grænser. Disse grænser spiller en stor rolle for bestemmelsen af LC50/LD50/EC50/ED50-værdien, da denne er defineret som doseringen midt mellem den øvre og den nedre grænse. For binomialfordelte data, som har et responsområde mellem 0 og 1, er det også muligt at have forskellige øvre og nedre grænser, men den nedre grænse kan aldrig blive være negativ. For kontinuerte data er forholdene yderligere kompliceret af, at såvel den øvre som den nedre grænse ikke har ”naturlige” værdier. Altså kan der for kontinuerte data godt forekomme negative responsværdier (dvs. at den nedre grænse forrykkes), som det er tilfældet, hvis man undersøger vækstratehæmning i en algetest og cellerne dør i løbet af testperioden. Desuden er det efterhånden veldokumenteret at en lang række pesticider og andre kemiske stoffer virker stimulerende ved meget små doser, og dermed fås også en afvigelse fra det forventede monotone kurveforløb - et fænomen der kaldes hormesis. Her er den øvre grænse for ubehandlede organismer mindre end for organismer, der har fået meget små doseringer. I begge de beskrevne tilfælde findes der modeller til at tage højde for disse fænomener, men i toksikologisk og økotoksikologisk sammenhæng besværliggøres målinger af et givet stofs toksicitet og der vil traditionelt være forskellige opfattelser af hvad man skal gøre for at få en tilfredsstillende beskrivelse af dosis-respons forløbet. Der pågår en videnskabelig debat af disse problemstillinger, og det har ligget uden for dette projekts rammer at fastlægge en ”best practice” på dette område. Dog giver de gennemgåde eksempler forslag til hvordan man kan håndtere denne problemstilling.

For binomialfordelte data er det en udbredt praksis, at data analyseres som procentvis virkning, f.eks. procent døde eller immobile dyr, og at man herefter behandler data som om de er kontinuerte. Simuleringsstudierne udført i denne rapport viste, at der ikke er den store forskel mellem parameterestimater, f.eks. LD50, når data analyseres korrekt dvs. med binomialfordelingen, eller når man benytter procentvis virkning og betragter data som normalfordelte (eller evt. logaritmisk normalfordelte). Til gengæld har det stor betydning for estimationen af standardfejlen om man benytter den ”forkerte” model til estimation af dosis-respons kurven. Dermed er situationen altså tilsvarende den vi har beskrevet ovenfor for normalfordelte data, altså at f.eks. det nedre 95% konfidensinterval ikke vil blive bestemt korrekt med risiko for fejlagtige administrative følgevirkninger.

Da fortolkning af resultater fra toksikologiske og økotoksikologiske undersøgelser kan få vidtrækkende betydning i reguleringsmæssig sammenhæng (de danner f.eks. udgangspunkt for afskæringsværdier i registrering og klassifikation i forskellige fareklasser/ kategorier) er det bydende nødvendigt, at resultaterne afrapporteres på den videnskabeligt set mest korrekte måde. Således vil estimeringen af præcise konfidensintervaller være af stor betydning. Dette gælder naturligvis i de tilfælde hvor en administrativ beslutning skal træffes på et sparsomt datagrundlag, men det er vigtigt at understrege at det ligeledes gør sig gældende i de tilfælde, hvor man på baggrund af store datamængder antager, at man har testet de mest følsomme arter. I dette tilfælde vil man normalt reducere sikkerhedsfaktorerne ved fastsættelse af f.eks. vandkvalitetskriterier til et minimum (evt. slet ikke anvende sikkerhedsfaktorer). Dette er f.eks. blevet foreslået for akvatiske makrofytter i de tilfælde, hvor man har fulde arts-følsomhedskurver (Species Sensitivity Distributions, SSDs). Sammenligninger af SSD’er for mikro- og makrokosmosforsøg har vist, at den nedre 95%-konfidensgrænse for 5% farlighedskoncentrationen (HC5) kan antages at være beskyttende for den akvatiske flora (Van den Brink et al., 2006), men med en forventet øget brug af SSD’er i reguleringsmæssig sammenhæng i fremtiden, vil en korrekt bestemmelse af konfidensintervaller på ikke-lineære regressioner, som foreslået i denne rapport få en øget betydning. I de tilfælde, hvor man pga. af datakvalitet og/eller –mængde anvender meget store sikkerhedsfaktorer i risikovurderingssammenhæng anbefales vi på baggrund af dette projekt at man tager udgangspunkt i LC50/LD50/EC50/ED50-værdier, som altid vil være bestemt med mindre usikkerhed end LC10/LD10/EC10/ED10-værdier. Ved risikovurderinger, hvor sikkerhedsfaktorer i størrelsesordenen 10-1000 anvendes vil en usikkerhed på konfidensgrænserne på under en faktor to måske umiddelbart kunne synes kun at være af akademisk betydning. I praksis vil de nemlig sjældent vil rykke ret meget ved den endelige risikovurdering. Imidlertid bør man ikke glemme, at en korrekt statistisk analyse af data sikrer en optimal udnyttelse af de tilvejebragte data og befordrer videnskabeligt baserede vurderinger af datakvaliteten. Hermed styrkes også mulighederne for en troværdig risikokommunikation mellem myndigheder, virksomheder og andre interessenter.

 



Version 1.0 Oktober 2008, © Miljøstyrelsen.