[Forside] [Indhold] [Forrige] [Næste]

Alternativer til dyreforsøg for øjenirritation.

3. COLIPA's validering af alternativer til Draize øjenirritationstesten

I 1993 tog COLIPA initiativ til at organisere et program for validering af alter-native metoder til Draizetesten for øjenirritation. Programmet var specielt rettet mod test af kosmetiske indholdsstoffer og formuleringer. Studiet blev designet til at bygge på erfaringer fra en tidligere valideringsundersøgelse på dette felt arrangeret af EU Kommissionen og British Home Office (EC/HO studiet) (Balls et al., 1995), hvor 40 % af de deltagende laboratorier kom fra kosmetikindustrien. 20 teststoffer var fælles for begge undersøgelser, og flere af de alternative metoder blev også brugt i begge studier.

Figur 3.1 Se her

Opbygning af COLIPA’s øjenirritationsstudie.

COLIPA øjenirritationsstudiet var designet til at afgøre, om data fra de alternative metoder kunne give: 1. en acceptabel overensstemmelse med Draize testens modificerede maksimale gennemsnitlige scoringsværdier (MMAS), 2. en acceptabel overensstemmelse med Draize testens individuelle vævsscoringer og tid for recovery, og/eller 3. en rimelig forudsigelse af øjenirritationspotentialet i Draize testen ud fra en forudsigelsesmodel (de Silva, 1996).

3.1 Undersøgelsens design

Studiet blev overordnet sponsoreret og organiseret af COLIPA, men enkelte uafhængige forskningsgrupper deltog med egen sponsorering. Veterinær- og Fødevaredirektoratet, Institut for Fødevaresikkerhed og Toksikologi, deltog f.eks. med sponsorering af testningen fra Miljøstyrelsen i et samarbejdsprojekt. COLIPA nedsatte en arbejdsgruppe med ansvar for gennemførelsen af øjenirritationsstudiet, og udpegede et managementudvalg til at forestå ledelsen af projektet (se figur 3.1). Hver test fik tildelt et ledelaboratorium, der forestod koordineringen mellem COLIPA og deltagerne, udarbejdede testprotokol og forudsigelsesmodel for metoden, og varetog den daglige ledelse af den samlede projektgruppes arbejde. Projektet blev planlagt med mindst to labora-torier pr. metode, og kun tre metoder blev påbegyndt i fire eller flere laboratorier (Brantom et al., 1994).

3.2 Teststoffer

COLIPA studiet omfattede 55 testmaterialer, der dækkede et bredt spektrum af kosmetiske indholdsstoffer og formuleringer. Materialerne omfattede ikke bare vandopløselige tensidbaserede produkter, men også f.eks. faste stoffer, pulvere, aerosoler, viskøse væsker, cremer, farvede produkter og alkoholbaserede materialer. De 55 teststoffer dækkede hele spektret af Draize test MMAS scoringens 110 points skala.

23 af teststofferne var ingredienser (se tabel 3.1). In vivo øjenirritationsdata for disse ingredienser kom fra ECETOC's databank (ECETOC, 1992). Alle stoffer i denne databank er testet for øjenirritation i Draize testen efter OECD guideline 405, og banken omfatter både MMAS værdier og individuelle vævsscoringer for alle forsøgsdyrene. 20 af disse stoffer var fælles for COLIPA studiet og EU/Home Office undersøgelsen.

Tabel 3.1

Ingredienser anvendt som teststoffer i COLIPA studiet

Benzalkoniumklorid 1% * Propylenglycol
Benzalkoniumklorid 5% * Natriumhydroxid 1% *
Benzalkoniumklorid 10% * Natriumhydroxid 10% *
n-butylacetat * Natriumlaurylsulfat 3% *
Cetylpyrimidinbromid 6% * Natriumlaurylsulfat 15% *
Cetylpyrimidinbromid 10% * Natriumlaurylsulfat 30%
Ethylacetat * Trikloreddikesyre 30% *
Glycerol * Triton X-100 1%
Imidazol * Triton X-100 5% *
Isopropanol * Triton X-100 10% *
Methylethylketon * Tween 20 *
Polyethylenglycol 400 *  

*: Fælles teststoffer i EU/Home Office og COLIPA studiet

De resterende 32 teststoffer var færdige kosmetiske produkter (se tabel 3.2). Produkterne var baseret på formuleringer, der har været undersøgt i en vali-deringsundersøgelse arrangeret af den amerikanske kosmetikindustri (CTFA), og produkterne var tidligere testet in vivo. Resultaterne fra disse forsøg var dog ikke sammenlignelige med ECETOC's data, da der var anvendt lokalbedøvelse ved CTFA's in vivo testning. Nye Draize tests efter OECD guideline 405 blev derfor udført for COLIPA for de 32 produkter af Agencé du Medicament. In vivo testningen var udført med fra 1 til 6 dyr pr. teststof, og forsøgene var kun gentaget for 2 stoffer. Her blev gennemsnittet i scoringsværdier fra de udførte forsøg anvendt. Resultaterne fra dyreforsøgene kunne derfor ikke bruges til at bedømme variationen mellem forskellige forsøg i opnåede scoringsværdier.

Tabel 3.2

Formuleringer anvendt som teststoffer i COLIPA studiet

Cologne Mascara
Emulsion antiperspirant Fugtighedscreme med solfaktor
Eye liner Mundvask
Hair conditioner Shampoo - normal
Hair styling lotion Brusegel
Hudrensemiddel Tandpasta
Håndrensemiddel Solcreme SPF 15
Håndsæbe Solcreme
Hårfarvebasis formulering 1 Shampoo - 2 i 1
Hårfarvebasis formulering 2 Shampoo - antiskæl
Hårfarvebasis formulering 3 Shampoo - baby
Rensegel Pumpe-deodorant
Renseskum Flydende sæbe
Rouge Salve (hydrofil)
Øjenmakeup fjerner Parfumeret hudlotion
Øjenskygge Skrubbemiddel

COLIPA studiet omfattede 2 faser: De 10 første stoffer blev testet i 1994, og de resterende 45 stoffer i 1995. Alle teststoffer blev testet blindt, og de var individuelt kodede, så de deltagende laboratorier ikke kunne sammenligne deres resultater før studiets afslutning. Med prøverne medfulgte et telefonnummer til en engelsk giftinformationscentral, så laboratorierne i tilfælde af uheld kunne blive informeret om prøvernes giftighed.

3.3 Alternative metoder

COLIPA undersøgelsen omfattede 10 alternative metoder, der anvendes i kosmetikindustrien som screeningstests:

SKIN2 ZK1200

I testen anvendtes et kunstigt væv, der blev fremstillet af humane fibroblaster og keratinocyter fra forhud. Fibroblasterne blev dyrket på nylonnet, hvor de i løbet af en måned dannede et sammenhængende bindevæv. Ovenpå dette væv blev der udsået keratinocyter, der voksede ud til et 3-4 cellelag tykt epithel. Væv på 1 x 1 cm blev fremstillet som et kommercielt testkit, SKIN2 ZK1200, af firmaet Advanced Tissue Sciences i Californien. Kits med 24 vævsprøver blev pakket i bakker, hvor vævene lå under agar med næringsmedie, hvorefter de med fly blev transporteret til de deltagende laboratorier.

Teststofferne blev doserede ufortyndet på epithelsiden af vævene i faste koncentrationer på 25 µ l eller 25 mg. Efter eksponering for teststoffer i perioder på op til 60 minutter, blev vævene vasket og cellerne vitalitet opgjort med MTT testen. MTT er en gul tetrazoliumfarve, der reduceres til et violet formazansalt ved cellulære redoxprocesser. Mængden af violet farve i vævene blev målt fotometrisk efter ekstraktion af farven med isopropanol. For hvert teststof blev der beregnet en t50 værdi. Dette er den eksponeringstid, der medfører en 50% reduktion i MTT metabolismen. Testen havde en matematisk forudsigelsesmodel, der var etableret på basis af historiske data for 132 ingredienser og produkter. Alle stoffer og produkter kunne testes med metoden. Modellen er udgået af produktion efter COLIPA studiets afslutning.

Neutralrødtoptagelse

Neutralrødtoptagelsestesten kan udføres med en række forskellige celletyper, men den blev i COLIPA studiet udført med 3T3 musefibroblaster. Vitalfarvestoffet bliver tilbageholdt i lysosomerne i levende celler på grund af forskellen i pH mellem lysosomet og det omgivende cytoplasma. Mængden af neutralrødt, der optages i 3T3 celler, er direkte proportionalt med antallet af levende celler i kulturen. Koncentrationen af teststof, der giver en 50% reduktion i optagelsen af neutralrødt bestemmes efter ekstraktion af farvestoffet. Testen havde en matematisk forudsigelsesmodel, der kunne forudsige MMAS værdier op til 60. Modellen var etableret på basis af historiske data for 30 stoffer, hvoraf 29 var tensider. En begrænsning ved metoden er, at der ikke kan testes uorganiske syrer og baser, og at kun vandopløselige stoffer kan testes.

Test med røde blodlegemer

I testen opgøres skade på cellemembranen ved fotometrisk måling af udsivning af hæmoglobin fra røde blodlegemer. Desuden måles protein-denaturering ved at følge reduktion i mængden af oxyhæmoglobin fotometrisk. Koncentrationen af teststof, der giver 50% hæmolyse i forhold til totalt lyserede kontrolprøver bestemmes. Både den laveste koncentration af teststof, der giver denaturering, og den maksimale procentvise denaturering opgøres også. Testen havde en matematisk forudsigelsesmodel, der var etableret på basis af historiske data for 25 færdige produkter, og en klassifikationsmodel, der var etableret på grundlag af test af ca. 100 stoffer. Vandopløselige ketoner, primære alkoholer og uorganiske syrer og baser var ikke omfattet af den sidstnævnte model. Kun stoffer, der er vandopløselige eller blandbare med vand kan testes med metoden.

Predisafe

Metoden består af et kommercielt testkit, hvor der måles frigørelse af neutralrødt fra SIRC celler (hornhindeceller fra kanin), der har optaget farvestoffet inden testningen. Der anvendes en kort eksponeringstid (< 1 minut). Koncentrationen af teststof, der giver 50% frigørelse af neutralrødt bestemmes. Testen havde en matematisk forudsigelsesmodel, der var etableret på basis af historiske data for 47 færdige produkter. Alle stoffer og produkter kunne testes med metoden.

Silikonemikrofysiometeret

Metoden omfatter, at kulturer af fibroblastceller (L929 celler), der dyrkes på porøse filtre. Kulturerne placeres i et sensorkammer på et CytosensorTM silikonemikrofysiometer, og ændring i cellernes metabolisme følges ved kontinuerte målinger af den ekstracellulære pH. For hvert teststof konstrueres der dosis-responskurver, der relaterer cellernes metabolisme til dosis af teststoffet. Koncentrationen af teststof, der giver 50% hæmning af cellernes metabolisme bestemmes. Testen havde en matematisk forudsigelsesmodel, der var etableret på basis af historiske data for 133 tensider og tensidbaserede produkter. Kun vandopløselige stoffer kan testes med metoden.

CAMVA

Metoden er baseret på analyse af ændringer af blodkar (VAscular changes) i fosterhinden (den chorioallantoide membran, CAM) af befrugtede hønseæg. Æggene inkuberes i 3 dage, og på 4. dagen bores et hul skallen, og ca. 2,5 ml af æggehviden fjernes. Et rektangulært vindue på 2 x 2 cm skæres i skallen. På 10. dagen placeres en teflonring på fosterhinden, og 40 ml af teststoffet påføres indenfor ringen. Vinduet forsegles og ægget inkuberes igen. CAM responset evalueres efter 30 minutter, og blodophobning, kapillærindvækst og/eller tilstedeværelse af tomme blodkar (ghost vessels) bedømmes som et positivt respons. For hver fortynding af teststoffet beregnes procentdelen af æg, hvor fosterhinderne reagerer. Herefter beregnes den koncentration, der teoretisk giver reaktion i 50% af æggene med 95% konfidensgrænser. CAMVA havde to forskellige matematiske forudsigelsesmodeller. En model for alkoholer, der var opstillet på basis af historiske data for 4 stoffer, og en for andre stoffer, der var opstillet på basis af historiske data for 19 stoffer. Den sidstnævnte model udelukker resultater opnået med polyethylenglycol-fedtsyrer og beslægtede fede amidethanolamider.

EYTEX

Metoden bestod af et kommercielt testkit med et planteprotein, der kan blive uigennemsigtigt efter reaktion med et teststof. Reaktionen blev aflæst i et colorimeter. Ved brug af kalibratorstoffer var det muligt at sammenligne et resultat med en Draize skala og bestemme en EYTEX Draize ækvivalent. EYTEX testen havde en matematisk forudsigelsesmodel, der kunne forudsige MMAS værdier op til 99. Modellen var udviklet på baggrund af historiske data for 102 stoffer. Materialer med indhold af manganviolet, >5% urinstof, >3% aluminiumklorhydrat, >5% zinkoxid eller >40% tensider kunne ikke testes. EYTEX modellen er udgået af produktion efter COLIPA studiets afslutning.

Pollenrørvækst

Metoden er baseret på fotometrisk kvantificering af vækst af pollenrør fra tobaksplanter i et kulturmedium. Pollenkorn dyrkes i 18 timer ved tilstedeværelse af forskellige koncentrationer af teststoffet, og massen af nydannede pollenrør bestemmes ved farvning med Alcianblåt. Koncentrationen af teststof, der giver en 50% reduktion i dannelsen af pollenrør bestemmes efter ekstraktion af farvestoffet. Testen havde en matematisk forudsigelsesmodel, der var etableret på basis af historiske data for 43 færdige produkter. Alle stoffer og produkter kunne testes med metoden.

HET-CAM testen

Metoden er i lighed med CAMVA testen baseret på analyse af ændringer af blodkar i fosterhinden af befrugtede hønseæg. Teststoffer påføres fosterhinden i 6 æg pr. dosis på 9. dagen efter befrugtningen. CAM responset evalueres efter 5 minutter for transparente teststoffer og efter 30 sekunder for andre stoffer. Blødning, lysering af blodkar og koagulering bedømmes som et positivt respons. Resultatet omsættes til et irritationsindeks ved hjælp af et computerprogram. 5% Texapon SVF (et anionisk tensid) bruges som positiv kontrol. Testen havde en klassifikationsbaseret forudsigelsesmodel, der var etableret på basis af historiske data for 97 stoffer. En begrænsning ved metoden er, at der ikke kan testes stoffer, der klæber til fosterhinden eller som er stærkt farvede.

Fluorescein lækage

I testen anvendes konfluente nyreceller (Madin-Darby Canine kidney cells) der i 15 minutter eksponeres for 5 faste koncentrationer af teststoffet. Størrelsen af en eventuel skade på cellerne bestemmes ud fra mængden af fluorescein, der kan passere gennem cellelaget gennem 4 timer. Koncentrationen af teststof, der giver anledning til en 20% beskadigelse af cellelaget beregnes herefter. Testen havde en klassifikationsbaseret forudsigelsesmodel, der var etableret på basis af historiske data for 43 tensider og formuleringer. En begrænsning ved metoden er, at der kun kan testes vandopløselige stoffer.

3.4 Etablering af forudsigelsesmodeller

En væsentlig del af COLIPA studiet var anvendelsen af forudsigelses-modeller, der blev brugt til at give en klar standard for vurderingen af de alternative metoders pålidelighed. En forudsigelsesmodel er en formel, der omsætter resultaterne fra en alternativ metode til en forudsigelse af toksicitet in vivo. Hvis en metode ikke har en forudsigelsesmodel, betragtes den ikke som tilstrækkeligt udviklet til at kunne valideres, fordi der endnu ikke er etableret en relation mellem in vitro og in vivo data (Bruner et al., 1996).

De forudsigelsesmodeller, der blev brugt i COLIPA studiet, blev udviklet på basis af historiske data fra de enkelte testsystemer. Forudsigelsesmodellerne indeholdt fire elementer, der er nødvendige for at kunne forudsige en in vivo effekt ud fra et in vitro resultat: 1. en beskrivelse af de typer af teststoffer, som forudsigelsesmodellen omfatter, 2. en beskrivelse af de typer af data, der kan indgå i modellen, og 3. en formel for omdannelse af in vitro data til en forudsigelse af et in vivo respons, og 4. en indikation for, hvor præcis en forudsigelse antages at være.

I COLIPA studiet blev pålideligheden af de alternative metoder vurderet på baggrund af, om resultaterne fra de alternative metoder var reproducerbare mellem laboratorierne, og om de opnåede data passede med den anvendte forudsigelsesmodel. Bedømmelse af alternative metoders evne til at forudsige øjenirritation blev som tidligere nævnt opstillet som det væsentligste formål ved planlægningen af COLIPA studiet. Efter undersøgelsens afslutning blev vurderingen af metodernes relevans anset for at være et separat spørgsmål. I den indledende rapport om studiet blev der derfor fokuseret mere på spørgsmål vedrørende metodernes reproducerbarhed, end på testenes potentiale for generelt at kunne erstatte Draize testen (Brantom et al., 1997).

I studiet blev der anvendt to forskellige typer af forudsigelsesmodeller. En gruppe af modeller var matematiske funktioner, der gav præcise forudsigelser af et bredt spektrum af Draize MMAS værdier ud fra in vitro data. En anden gruppe var ikke-kontinuerte klassifikationsmodeller, der kun relaterede in vitro data til forskellige irritationsklasser. Anvendelse af matematiske modeller giver principielt mulighed for at kunne forudsige alle typer af det ønskede in vivo respons, f.eks. MMAS værdier fra Draize testen. Begge typer af modeller kan have begrænsninger, f.eks. i form af stofklasser og tilstandsformer, der ikke kan testes eller typer af respons (f.eks. stærk øjenirritation), der ikke kan forudsiges. Der kan ikke opnås en præcis forudsigelse af et stofs in vivo toksicitet med klassifikationsmodeller, men de bruges til en grovere opdeling af stoffer i f.eks. mildt, moderat og stærkt irriterende stoffer. Klassifikationsmodeller giver derfor generelt en svagere forudsigelse af in vivo responset end matematiske modeller, og baggrunden for at opstille denne modeltype er som regel, at der ved indledende undersøgelser ikke har kunnet påvises en kontinuert sammenhæng (korrelation) mellem in vitro data og et in vivo respons.

Hidtil har studier vedrørende validering af alternative metoder primært været koncentreret om indledende analyser af korrelationer mellem in vitro og in vivo data. COLIPA studiet er en af de første undersøgelser hvor forudsigelsesmodeller, opstillet på grundlag af tidligere undersøgelser, bruges til at bedømme metodernes evne til at forudsige in vivo responset og reproducere korrelationer opnået med historiske data. Studiet belyser derfor en række fundamentale problemer ved anvendelse af modellerne, der vil kunne bruges ved planlægning af fremtidige valideringsstudier. En sideløbende anvendelse af matematiske modeller og klassifikationsmodeler gør det meget vanskeligt at foretage en overordnet sammenligning af de alternative metoders relevans. Det er f.eks. nødvendigt at anvende forskellige statistiske metoder ved behandlingen af resultater fra de to ovennævnte grupper af modeller, og resultaterne kan ikke umiddelbart sammenlignes (se afsnit 3.6 om statistiske metoder). I COLIPA studiet vanskeliggjorde en række andre forhold også en sammenligning af de forskellige metoder. Grundlaget for sammenligning af in vitro og in vivo resultater var f.eks. ikke standardiseret. Således blev der ved analyse af HET-CAM testens resultater anvendt individuelle vævsscoringer fra Draize testene, hvorimod MMAS værdier blev brugt for alle de øvrige in vitro systemer. Tillige var det tilfældet, at alle undersøgelsens teststoffer kun blev testet i 3 ud af de 10 alternative metoder (SKIN2 ZK1200 modellen, Predisafetesten og testen for pollenrørvækst). Ved brug af de øvrige metoder blev det tilladt at undlade at teste ingredienser og produkter, der ville være vanskelige at håndtere. 50% af teststofferne måtte f.eks. frasorteres ved brug af silikonemikrofysiometret.

Teoretisk set vil alternative metoder med kontinuerte matematiske forudsigelsesmodeller uden alvorlige begrænsninger have det bedste potentiale for at kunne erstatte et dyreforsøg. Metoder, der kun har kunnet opnå en klassifikationsmodel, vil derfor kunne undværes, med mindre metoden potentielt kan forudsige et helt unikt og væsentligt biologisk respons. Begrundelsen for valg af modeltype forekommer tillige uklar, når biologisk nært beslægtede systemer som f.eks. CAMVA og HET-CAM testen har forskellige typer af forudsigelsesmodeller. Endvidere vil der kunne opstilles et minimumskrav til antallet af stoffer, der danner basis for opstilling af en forudsigelsesmodel. Dette var ikke tilfældet i COLIPA studiet, hvor antallet af stoffer bag modellerne varierede fra 4 (CAMVA testens model for alkoholer) til 132 (SKIN2 ZK1200 metodens model for generel forudsigelse af øjen-irritation). Endelig vil det være relevant at begrænse en validerings-undersøgelse, der designes til at kunne anvendes til sammenligning af forskellige tests, til at omfatte metoder hvor alle eller flertallet af de valgte teststoffer kan undersøges.

3.5 Indsamling af in vitro resultater

BIBRA stod både for forsendelse af prøver til laboratorierne, og indsamling af data samt den statistiske analyse af resultaterne. Disse funktioner blev udført i henhold til GLP. De deltagende laboratorier indsendte de opnåede in vitro resultater på standardiserede datablanketter direkte til BIBRA. Blanketterne indeholdt information om prøvernes koder, en beskrivelse af testmaterialet, in vitro rådata og beregnede in vivo data. De indsendte datas kvalitet blev kontrolleret af BIBRA's kvalitetssikringsenhed (Brantom et al., 1997).

3.6 Statistiske metoder

BIBRA udførte den statistiske analyse af de opnåede data. Der brugtes forskellige grupper af tests afhængigt af, om in vitro metoderne havde matematiske eller klassifikationsmæssige forudsigelsesmodeller.

For in vitro metoder med matematiske forudsigelsesmodeller blev metodernes relevans bedømt ved analyser af lineære korrelationer mellem forudsagte Draize MMAS værdier på baggrund af in vitro data og observerede Draize MMAS værdier. Det blev desuden undersøgt i hvilket omfang de forudsagte Draize MMAS værdier passede med de opstillede forudsigelsesmodeller. Det blev beregnet hvor stor en procentdel af observationerne, der for de enkelte tests faldt udenfor forudsigelsesmodellens 95% og 99% forudsigelses-intervaller. BIBRA beregnede også summen af kvadrerede forskelle mellem forudsagte og observerede Draize MMAS værdier. Disse summer kan bruges til at vurdere, hvor gode forudsigelser der er opnået. In vitro metodernes evne til at forudsige in vivo respons blev tillige vurderet ud fra Altman/Bland diagrammer af forskellen mellem forudsagte og observerede Draize MMAS værdier for hvert laboratorium.

Med henblik på at vurdere de ovennævnte metoders reproducerbarhed mellem forskellige laboratorier blev der beregnet gennemsnit, standardafvigelser og variationskoefficienter (CV) for utransformerede og logaritmisk transformerede in vitro data. Desuden blev der udarbejdet Altman/Bland diagrammer af forskellen mellem forudsagte Draize MMAS værdier for laboratorierne parvist.

Både relevansen og reproducerbarheden af in vitro metoder med klassifikationsmodeller blev vurderet med kappa statistik. Udtrykket for overensstemmelse i klassificering, kappa (k ), har et maksimum på 1, når overensstemmelsen er perfekt. En kappaværdi på 0 betyder, at overensstemmelsen ikke er bedre end hvad der kan være tilfældigt, og negative værdier viser en ringere overensstemmelse end dette. I kappa statistikken kan der både bruges ensartet vægtning af resultaterne eller forskellig vægtning. Ved ensartet vægtning tages der ikke hensyn til graden af uoverensstemmelse mellem resultaterne, idet alle uoverensstemmelser behandles ens. En kappa med liniær vægtning tildeler større betydning til effekter af uoverensstemmelser på mere end 2 klassificeringer, og en kvadratisk vægtet kappa tillægger sådanne uoverensstemmelser endnu større betydning. En kappa-værdi kan ikke sammenlignes med en korrelations-koefficient.

3.7 Yderligere analyser af COLIPA undersøgelsens resultater

En af konklusionerne i den foreløbige rapport om COLIPA undersøgelsen var, at der burde foretages en yderligere, mere detaljeret undersøgelse af de data, der blev opnået i dette og i EU/Home Office studiet. For SKIN2 ZK1200 modellen fandtes der yderligere data for 20 af teststofferne fra et tredie laboratorium (Procter & Gamble, Cincinatti, USA). Disse data var opnået i forbindelse med EU/Home Office studiet for kodede teststoffer, og de var indsendt blindt til BIBRA. I den samlede vurdering af data fra SKIN2 ZK1200 modellen blev testens reproducerbarhed genstand for videre analyse og forudsigelsen af individuelle vævsscoringer i Draize testen blev evalueret. Endvidere blev forskelle i resultater mellem COLIPA laboratorierne og Procter & Gamble bedømt (Southee et al., 1999).

3.8 Resultater

SKIN2 ZK1200 modellen

Resultater opnået med SKIN2 ZK1200 modellen var velegnede til at forudsige Draize test MMAS værdier for alle typer af testmaterialer. Testen blev gennemført af 2 laboratorier: Microbiological Associates, Skotland (laboratorium 21), og Institut for Fødevaresikkerhed og Toksikologi, Danmark (laboratorium 23). Et tredie laboratorium (Lab. Simon, Belgien, laboratorium 22) deltog i projektets første fase med test af 10 stoffer. Der blev opnået meget gode korrelationer mellem forudsagte og observerede Draize MMAS værdier (se figur 3.2 og tabel 3.3), og alle ingredienser og produkter kunne testes i modellen.

Figur 3.2

Image34.gif (9792 bytes)

Sammenhæng mellem forudsagte Draize test MMAS værdier med SKIN2 ZK1200 i laboratorium 21 (a) og 23 (b) og observerede MMAS værdier. Fra Brantom et al., 1997.

Der fandtes også gode korrelationer mellem forudsagte og observerede Draize MMAS værdier, når teststofferne blev opdelt på ingredienser og formuleringer (se tabel 3.4). Endvidere blev der opnået gode korrelationer (r > 0.8) mellem in vitro data (t50 værdier) og respons i de individuelle væv i Draize testen. Derimod blev der kun opnået en mådelig god korrelation til tid for recovery af Draize test responset (r = 0.66) (Southee et al., 1999).

En god lineær korrelation (r = 0.87) mellem logaritmisk transformerede t50 værdier fundet med SKIN2 ZK1200 modellen og scoringsværdier fra low-volume øjenirritationstesten med kaniner er tidligere opnået ved test af 36 kemikalier og produkter. Desuden var t50 værdier for 20 andre stoffer i god overensstemmelse med Draize test MAS værdier (Osborne et al., 1995).

Tabel 3.3

Korrelationer mellem forudsagte og observerede Draize test MMAS værdier i COLIPA studiet for alle teststoffer

Metoder Pearsons lineære korrelations koefficienter* Antal af testede stoffer**
SKIN2 ZK1200

r = 0.88

55

Neutralrødtoptagelse

r = 0.29

52

Test med røde blodlegemer

r = 0.68

32

Predisafe

r = 0.65

55

Silikone mikrofysiometret

r = 0.67

28

CAMVA

r = 0.61

47

EYTEX

r = 0.39

38

Pollenrørvækst

r = 0.43

55

*: Gennemsnit af korrelationskoefficienter opnået i de deltagende laboratorier.

**: Gennemsnit af stoffer, der blev testet i de deltagende laboratorier.

Figur 3.3

Image179.gif (10928 bytes)

Sammenhæng mellem t50 værdier opnået med SKIN2 ZK1200 i laboratorium 21 (a) og 23 (b) og observerede Draize test MMAS værdier. Den ubrudte linie viser metodens forudsigelsesmodel, og de stiplede linier viser modellens 95% konfidensintervaller. Fra Brantom et al., 1997.

De resultater, der blev opnået med SKIN2 ZK1200 modellen passede desuden godt med testens forudsigelsesmodel (se figur 3.3). SKIN2 ZK1200 modellen var den metode i COLIPA undersøgelsen, der bedst var i stand til reproducere forudsigelsesmodellen. Ingen datapunkter faldt udenfor modellens 95% eller 99% intervaller for laboratorium 21. Kun 5.3% af datapunkterne faldt udenfor 95% intervallet for laboratorium 23. Disse punkter repræsenterede 7 stoffer, hvis irriterende potentialer blev let til moderat overvurderede (Brantom et al., 1997).

Tabel 3.4

Korrelationer mellem forudsagte og observerede Draize test MMAS værdier i COLIPA laboratorierne, der testede SKIN2 ZK1200 modellen

  Lab 21 Lab 23
Alle materialer
(n = 55)
r = 0,906 r = 0,850
Formuleringer
(n = 32)
r = 0,786 r = 0,727
Ingredienser
(n = 23)
r = 0,896 r = 0,826

En positiv kontrol (natriumlaurylsulfat, 2%) var inkluderet i alle de forsøg, der blev udført med SKIN2 ZK1200 modellen (se tabel 3.5). Der fandtes et lavere respons med den positive kontrol i laboratorium 23 end i laboratorium 21, og dette bekræfter at der var en tendens til at overvurdere irritationspotentialet i laboratorium 23. Variationen i målingerne af de positive kontrolprøver var markant lavest i laboratorium 21, som også havde udført flest forsøg. Laboratorium 23 havde importeret flere væv pr. forsendelse, og dermed opnået en betydelig besparelse på omkostningerne. De ovennævnte resultater tyder dog på, at det vil være bedst at begrænse antallet af væv, der håndteres pr. forsøgsrunde (Southee et al., 1999).

Ved forudsigelsen af Draize MMAS værdier med SKIN2 ZK1200 modellen anvendes logaritmisk transformerede t50 værdier, og dette mindsker datavariationen betydeligt i forhold til brug af utransformerede data. Altman/Bland diagrammerne over forskellene mellem forudsagte og observerede MMAS værdier viste standardafvigelser på under 15% i begge laboratorier. Der fandtes 100% overensstemmelse i t50 værdier opnået i de to laboratorier for 23 af teststofferne med værdier på under 0.1 minut eller over 60 minutter, og en lineær korrelation med r = 0.97 mellem de opnåede t50 værdier for de resterende teststoffer. Ved statistisk analyse fandtes dog en marginal signifikant forskel (p = 0.06) i de parrede sammenligninger af laboratoriernes t50 værdier. De observerede forskelle skyldes formentlig, at der var en tendens til at overvurdere in vivo responset for de mest reaktive teststoffer i laboratorium 23. Det blev konkluderet, at det var muligt at opnå en god konsistens i resultater opnået i forskellige laboratorier med metoden (Southee et al., 1999).

Tabel 3.5

Positive og negative kontrolprøver med SKIN2 ZK1200 metoden

  Positiv kontrol
(% viabilitet)
Negativ kontrol
(OD540)
Lab 21 (n = 29) 49,0 ± 11,2
(CV: 22,9%)
1.705 ± 0.229
(CV: 13,4%)
Lab 23 (n = 14) 29,4 ± 14,2
(CV: 48,3%)
1.404 ± 0.138
(CV: 9,8%)

Negative kontrolprøver med udoserede væv var også inkluderet i alle forsøgene (se tabel 3.5). De gennemsnitlige MTT målinger for udoserede kontrolvæv var noget højere i laboratorium 21 end i laboratorium 23. Dette tyder på, at vævenes viabilitet ved modtagelsen var højest i laboratorium 21. Variationen i MTT målingerne af de negative kontrolprøver var lav i begge laboratorier (< 15% CV) (Southee et al., 1999).

Tabel 3.6

Korrelationer mellem forudsagte og observerede Draize test MMAS værdier i COLIPA studiet for 23 formuleringer

Metoder Pearsons lineære korrelations koefficienter* Antal af testede formuleringer**
SKIN2ZK1200

r = 0.86

23

Neutralrødtoptagelse

r = 0.63

21

Test med røde blodlegemer

r = 0.81

11

Predisafe

r = 0.54

23

Silikone mikrofysiometret

r = 0.72

19

CAMVA

r = 0.62

23

EYTEX

r = 0.25

14

Pollenrørvækst

r = 0.53

23

*: Gennemsnit af korrelationskoefficienter opnået i de deltagende laboratorier.

**: Gennemsnit af formuleringer, der blev testet i de deltagende laboratorier.

Ved analyse af resultater opnået med SKIN2 ZK1200 modellen opnåedes yderligere information om variationen i systemet. Resultater opnået hos Procter & Gamble undervurderede signifikant irritationspotentialet af de 20 fælles teststoffer i forhold til COLIPA undersøgelsens laboratorier (p < 0.001). I Danmark blev der set en mindre tendens til overvurdering af resultaterne i forhold til resultaterne fra ledelaboratoriet i Skotland. Samlet tyder dette på, at følsomheden af SKIN2 ZK 1200 modellen kan være stærkt påvirket af forskelle i transporttid for vævene. Under transporten havde vævene dårlige livsbetingelser, idet de kun kunne optage næring fra den overliggende agar (Southee et al., 1999).

En anden mulig årsag til de fundne forskelle mellem laboratorierne er, at der blev anvendt forskellige doseringsmåder. På Procter & Gamble blev prøverne først sat på et dækglas, der derefter påførtes vævene. COLIPA laboratorierne testede derimod de fleste af de 20 fælles teststoffer ved direkte påføring på vævene. Teststof kan være tabt ved den indirekte doseringsmåde, og toksiciteten af flygtige stoffer er formentlig højest ved den direkte doseringsmåde. Tillige blev de største forskelle i resultater mellem COLIPA laboratorierne fundet for meget reaktive stoffer og ofte for materialer med stort indhold af opløsningsmidler. Små forskelle i doseringsteknik vil kunne have stor indflydelse på resultater for sådanne stoffer (Southee et al., 1999).

Tabel 3.7

Korrelationer mellem forudsagte og observerede Draize test MMAS værdier i COLIPA studiet for 32 ingredienser

Metoder Pearsons lineære korrelations koefficienter* Antal af testede ingredienser**
SKIN2ZK1200

r = 0.76

32

Neutralrødtoptagelse

r = 0.21

31

Test med røde blodlegemer

r = 0.94

21

Predisafe

r = 0.87

32

Silikone mikrofysiometret

r = 0.84

9

CAMVA

r = 0.64

24

EYTEX

r = 0.33

24

Pollenrørvækst

r = 0.78

32

*: Gennemsnit af korrelationskoefficienter opnået i de deltagende laboratorier.

**: Gennemsnit af ingredienser, der blev testet i de deltagende laboratorier

Andre metoder med matematiske modeller

Der blev opnået ringe til moderat gode korrelationer mellem forudsagte og observerede Draize MMAS værdier for de øvrige in vitro metoder med matematiske forudsigelsesmodeller (se tabel 3.3). Det fulde sæt af testmaterialer kunne foruden i SKIN2 ZK1200 modellen kun testes i Predisafe testen og i pollenrørtesten, og derfor giver de opnåede korrelationer formentlig et overestimat af de fleste af metodernes evne til at forudsige Draize MMAS værdier for en blandet gruppe af ingredienser og formuleringer. Generelt var metodernes evne til at reproducere en forudsigelsesmodel relativt dårlig, og betydeligt mere end 5% af datapunkterne faldt udenfor modellernes 95% konfidensintervaller. Der fandtes der markante tendenser til at overestimere in vivo responset med CAMVA testen og med silikonemikrofysiometret, mens der med testen med røde blodlegemer var en tendens til at undervurdere in vivo responset.

For flere af de øvrige in vitro metoder med matematiske forudsigelses-modeller fandtes der betydeligt bedre korrelationer mellem forudsagte og observerede Draize MMAS værdier, når teststofferne blev opdelt på ingredienser og formuleringer (se tabel 3.6 og 3.7). Specielt fandtes der gode korrelationer for begge typer af testmaterialer med testen med røde blodlegemer, men kun 11 ud af 23 formuleringer kunne testes. Der opnåedes endvidere en god forudsigelse af ingrediensers irriterende potentiale med Predisafe testen og med silikonemikrofysiometret, men med den sidstnævnte metode blev kun 9 ingredienser testet.

Tabel 3.8

Forskellige mål for reproducerbarheden af alternative metoder med matematiske forudsigelsesmodeller mellem laboratorier.

Metoder CV%* CV% log
transformeret
Altman/Bland
S. D.
SKIN2 ZK1200

25,0 ± 32.4

9,6 ± 106,6

13,7

Neutralrødt- optagelse

37,3 ± 29,8

7,5 ± 6,8

3,8-6,9

Test med
røde blodlegemer

41,7 ± 32,6

6,7 ± 4,9

1,8-6,8

Predisafe

31,8 ± 30,2

49,6 ± 139,9

9,1-9,9

Silikone mikrofysiometret

-

3,0 ± 4,0

7,5

CAMVA

-

114,0 ± 480,7

14,7

EYTEX

9,9 ± 10,3

-

10,7-13,2

Pollenrørvækst

23,8 ± 17,9

3,9 ± 3,4

3,2-4,5

* : variationskoefficient

Forskellige mål for for metodernes reproducerbarhed mellem laboratorier ses i tabel 3.8. Ved brug af utransformerede variationskoefficienter sås en specielt stor variation (41.7%) for testen med røde blodceller, mens EYTEX testen havde under 10% variation. Ved brug af logaritmisk transformerede variationskoefficienter sås en særdeles stor variation (114%) for CAMVA testen og en stor variation for Predisafe testen (49.6%), mens de øvrige tests havde under 10% variation. ud fra de opnåede standardafvigelser fra Altman/Bland diagrammerne, havde CAMVA, EYTEX og SKIN2 ZK1200 metoderne over 10% datavariation, mens de øvrige metoder havde under 10% variation.

I den preliminære rapport om undersøgelsen blev der kun udført en fuld evaluering af reproducerbarheden mellem laboratorier for metoder, der blev udført af 4 laboratorier og derover. Kun neutralrødtoptagelsestesten og testen med røde blodceller kunne opfylde dette krav, og disse tests blev bedømt til at have en rimelig reproducerbarhed (Brantom et al., 1997).

Det er fra flere sider blevet fremhævet som nødvendigt at evaluere reproducerbarheden af de anvendte metoder i mindst 4 laboratorier (Bruner et al., 1996, Earl et al., 1997). Det bør dog nævnes, at flere nye dyreforsøg i de senere år er blevet optaget i OECD guidelines for testning helt uden krav om vurdering af forsøgenes reproducerbarhed.

Metoder med klassifikationsmodeller

Resultaterne af HET-CAM testens og fluorescein lækage testens evne til at forudsige in vivo øjenirritation i forhold til forskellige irritationsklasser er opsummeret i tabel 3.9. HET-CAM testens evne til at forudsige in vivo responset var dårlig, og de deltagende laboratorier fejlklassificerede mindst 7 ud af de 55 teststoffer med 2 eller flere kategorier. HET-CAM testen var bedst til at påvise stærkt irriterende stoffer, men metoden undervurderede et betragteligt antal stoffers og materialers irriterende potentialer. Resultater opnået med fluorescein lækage testen var bedre til at forudsige Draize test responset. Kun 40 ud af de 55 stoffer og materialer blev imidlertid testet, og kun 4 af stofferne blev klassificeret som moderat irriterende. Dette medfører, at modellen ikke kan evalueres på grund af for få data. Endvidere kunne testens forudsigelsemodel ikke skelne mellem Draize MMAS værdier på mellem 30 og 110.

Tabel 3.9

Evnen til at forudsige Draize test irritationsklasser for in vitro metoder med klassifikationsmodeller

  HET-CAM testen Fluorescein lækage testen
k *

0.52

0.69

Vægtet k * (lineær)

0.65

0.81

Vægtet k * (kvadratisk)

0.75

0.89

*: Gennemsnit af kappa værdier opnået i de deltagende laboratorier.

Tabel 3.10

Reproducerbarhed af in vitro metoder med klassifikationsmodeller mellem forskellige laboratorier.

  HET-CAM testen Fluorescein lækage testen
k *

0.41

0.80

Vægtet k * (lineær)

0.57

0.88

Vægtet k * (kvadratisk)

0.57

0.94

*: Gennemsnit af kappa værdier opnået i de deltagende laboratorier.

HET-CAM testens reproducerbarhed mellem forskellige laboratorier blev vurderet som moderat god i den lavere og højere del af irritationsskalaen, men dårligere i midten af skalaen. Fluorescein lækage testen blev kun anvendt i 2 laboratorier, men reproducerbarheden var bedre end HET-CAM testens (se tabel 3.10). De opnåede kappa-værdier kan som tidligere nævnt ikke sammenlignes med resultaterne af de statistiske metoder, der kan anvendes ved brug af matematiske modeller. Det vil derfor kun være muligt, at opnå et reelt grundlag for at sammenligne fluorescein lækage testen med de øvrige alternative tests , hvis testens resultater behandles ved brug af de samme statistiske metoder. Dette er teoretisk muligt, men det blev ikke gennemført i COLIPA studiet.

3.9 Diskussion

Kort efter COLIPA studiets afslutning blev det konkluderet, at ingen af de anvendte in vitro metoder på baggrund af de preliminære resultater kunne leve op til undersøgelsens kriterier for både reproducerbarhed og relevans. PÅ dette grundlag blev ingen af de alternative metoder betragtet som en pålidelig (valid) erstatning for Draize testen. Tre af de anvendte metoder - fluorescein lækage testen, testen med røde blodlegemer og SKIN2ZK1200 systemet - blev dog bedømt som enten reproducerbare eller relevante. Videre undersøgelser af data blev anbefalet med henblik på opstilling af nye forudsigelsesmodeller, som vil kunne anvendes i en fremtidig valideringsundersøgelse (Brantom et al., 1997).

De summariske konklusioner i den indledende rapport skyldes formentlig flere faktorer. COLIPA undersøgelsen blev planlagt med mindst 3 deltagende laboratorier pr. test for 90% af metoderne. I realiteten blev undersøgelsen gennemført med kun 2 laboratorier pr. test for flere af metoderne. Efter studiets afslutning blev det meddelt deltagerne, at metodernes reproducer-barhed kun ville blive vurderet, hvis testen var udført i mindst 4 laboratorier. 70% af de deltagende tests kunne ikke opfylde dette krav. De opnåede resultater vedrørende metodernes relevans blev kun diskuteret summarisk, hvor kriteriet for evaluering af reproducerbarheden ikke blev opfyldt. Derfor blev der kun foretaget en større evaluering af testen med røde blodceller og neutralrødtoptagelsestesten. Desuden blev der ikke foretaget en overordnet sammenligning af de deltagende metoders resultater. Dette skyldes bl.a. at studiet var designet til at hvile på brugen af forskellige typer af forud-sigelsesmodeller. Endvidere var grundlaget for sammenligning af in vitro og in vivo resultater ikke standardiseret.

En videre analyse af undersøgelsens resultater med inddragelse af flere data, og med større vægt på metodernes relevans end deres reproducerbarhed har givet anledning til mere detaljerede konklusioner: SKIN2 ZK1200 modellen blev vist at være meget god til forudsigelse af et bredt spektrum af Draize MMAS værdier, og desuden kunne testen forudsige individuelle vævsreaktioner både for formuleringer og ingredienser. Metoden må antages at have en meget bred anvendelsesmulighed, fordi alle 55 testmaterialer kunne testes, og tidligere er der opnået lovende resultater ved test af 132 materialer med et meget bredt spektrum af irriterende potentialer. SKIN2 ZK1200 modellen var den test i COLIPA undersøgelsen, der bedst var i stand til reproducere metodens forudsigelsesmodel. SKIN2 ZK1200 metodens reproducerbarhed må betragtes som rimelig, og den er i lighed med de fleste andre in vitro metoder betydeligt mere reproducerbar end Draize testen (se tabel 3.11).

Ingen af de øvrige alternative metoder i COLIPA studiet var velegnede til forudsigelse af et bredt spektrum af Draize MMAS værdier for blandede stoffer og produkter. Flere metoder fandtes dog velegnede til forudsigelse af in vivo responset af ingredienser, specielt af vandopløselige stoffer som tensider. Begge tests med fosterhinder fra hønseæg (CAMVA og HET-CAM testene) havde en meget ringe reproducerbarhed mellem laboratorier. Reproducer-barheden af de øvrige metoder mellem forskellige laboratorier var god. Neutralrødtoptagelsestesten og testen med røde blodceller blev udført af mindst 4 laboratorier, og disse tests blev bedømt til at have en rimelig reproducerbarhed (Brantom et al., 1997).

Den mest egnede undersøgelse til belysning af Draize testens variation blev publiceret af Weil og Scala i 1971. 9 stoffer blev testet for øjenirritation i 24 forskellige laboratorier, og der blev gennemført en tilsvarende undersøgelse for hudirritation. Der fandtes generelt en meget stor variation i de opnåede dyreforsøgsresultater, både for resultater opnået med det samme stof i enkelte laboratorier (fra 17 til 117 % CV) og for resultater opnået i forskellige laboratorier (fra 42 til 59 % CV) (Earl et al., 1997). Undersøgelsens konklusion var, at Draize testene for øjen- og hudirritation på grund af den ekstreme variation i resultaterne ikke kan anvendes til en konsistent klassifikation i praksis (Weil og Scala, 1971). Dyreforsøgene er dog fortsat med stort set uændret design, og i dag antages variationen at være af samme størrelsesorden som for 25 år siden (Earl et al., 1997). Den særdeles store usikkerhed drager den gældende regulatoriske praksis med krav om dyreforsøg for øjen- og hudirritation i tvivl, og den vanskeliggør i høj grad en validering af alternative metoder ved sammenligning med data fra dyreforsøgene.

Tabel 3.11

Historiske data om reproducerbarhed af in vitro metoder og Draize testen i individuelle laboratorier (fra Bruner et al., 1996)

Metode Positiv
Kontrol
n CV %
BCOP acetone 119 12.0
Microtox fenol 123 19.4
Silikone mikrofysiometer SLS 163 15.5
Neutralrødtoptagelse SLS 191 21.7
CORROSITEX NaOH 44 9.5
SKIN2 ZK1200 SLS 44 26.0

COLIPA studiets væsentligste resultat var, at studiet var den første større blindundersøgelse af blandede stoffer og produkter, hvor en alternativ test - SKIN2 ZK1200 metoden - potentielt er vist at kunne erstatte dyreforsøg for akut øjenirritation. Producenten af vævsmodellen, firmaet Advanced Tissue Science i Californien, besluttede dog kort efter COLIPA studiets afslutning at standse produktionen og salget af SKIN2 modellerne. Beslutningen var begrundet i problemer med at opnå et tilstrækkeligt stort salg af vævs-modellerne på grund af deres høje pris, og lange udsigter for en generel accept af metoderne på trods af meget gode resultater fra flere forskellige valideringsundersøgelser. Firmaet satser nu udelukkende på at fremstille rekonstruerede væv til transplantation.

Standsningen af produktionen af de patenterede SKIN2 modeller er et stort tilbageslag for arbejdet med udvikling af anvendelige alternative metoder, specielt til påvisning af lokalirriterende stoffer. De allerede opnåede resultater med modellerne er dog ikke blevet uinteressante, idet en stor generel viden om mulighederne i anvendelsen af vævsmodeller i toksikologiske undersøgelser er opnået. Udvikling af ikke-kommercielle vævsmodeller er særdeles påkrævet, idet dette ville kunne løse problemerne vedrørende økonomiske begrænsninger ved anvendelse af patenterede rekonstruerede væv og afhængigheden af få fabrikanter af kommercielle testkits.


[Forside] [Indhold] [Forrige] [Næste] [Top]