Samfundsøkonomisk analyse af spildevandsafgiften

Bilag 11 - Regressionsanalyse

Modelkontrol og fortolkning af modeller
Test af modeller

Ønsket med regressionsanalysen er at forklare renseanlæggenes omkostningsandele (se afsnit 5.2.1) udfra de rensede mængder af hhv. Kvælstof(N), Fosfor(P) og Organisk stof(BI5). Der er udført en logaritmisk transformeret regression for hvert stof i hver af de 3 grupperinger af renseanlæg.

Formel

Hvor yi er responsvariablen og xi er den forklarende variabel, α angiver regressionens skæring med y-aksen og β regressionens hældning, mens ei er restleddet i modellen.

Observationerne deles, som nævnt i afsnit XXX op i 3 grupperinger.

  • Gruppe 1: Data består af de 22 anlæg der har reageret på spildevandsafgiften – Herefter model 22.
  • Gruppe 2: Data består af de anlæg der har taget initiativ som følge af andet end spildevandsafgiften, i alt 43 anlæg – Herefter model rest.
  • Gruppe 3: Data består af alle anlæg der har taget initiativ som følge af enten spildevandsafgiften eller andet, i alt 65 anlæg – Herefter model alle.

Modelkontrol og fortolkning af modeller

F-værdierne på alle regressionerne er store (>40), alle regressioner således er signifikante, og der er således tæt forbindelse mellem den afhængige variabel og responsvariablen.

Der synes ikke problemer med heteroskedasticitet i nogen af modellerne (nedenfor er vist residualplot for Gruppe 3), der er dog stadig enkelte observationer, der ligger udenfor båndet af residualer ml. –2 og 2. Disse er testet og er ikke blevet godkendt som værende ekstreme observationer.

Alle de ekstreme observationer, der er forekommet ved kørslerne af regressionerne, er fjernet fra af modellerne.

I alle tilfælde drejede det sig om anlæg, der var forholdsvis store i forhold til resten af anlæggene i datasættene, både hvad angår økonomi og fjernede mængder N, P og BI5.

Anlæggene, der er fjernet fra regressionen er hhv. et fra gruppen af anlæg der har taget initiativ sfa. spildevandsafgiften (dette anlæg er dog kun en ekstrem observation i gruppen med 22 anlæg, observationen er ikke en ekstrem observation i gruppen med ”alle” anlæg og er derfor medtaget i denne estimation), I gruppen af anlæg der har taget initiativ sfa. andet end spildevandsafgiften fjernes 4 anlæg, disse 4 er også ekstreme observationer i grupperingen af data der omfatter ”alle” anlæggene.

Modelkontroller

Der kan synes en mulig afvigelse fra linearitets betingelserne, men umiddelbart er det svært at afgøre, hvorvidt betingelsen overtrædes. Dette er i høj grad et spørgsmål om hvor meget ”systematik” i residualernes fortegn, man mener at kunne observere.

Der kan, i alle 3 diagrammer, synes en tendens til, at der er flest positive residualer ved hhv. de helt lave og høje værdier af logaritmen til den forklarende variabel.

Afvigelsen fra linearitet afvises dog af normalfraktildiagrammet, der er pæn, lineær og uden tunge ”haler” og ekstreme observationer.

Det kan derfor ikke afvises, at residualerne i modellerne er normalfordelte residualer, se diagrammet nedenfor.

Modelkontrol

Plot af omkostningsandelen mod de rensede mængder viser en tendens til, at data kan beskrives ved en logaritmisk udvikling. Der er enkelte observationer, der ligger forholdsvist ekstremt, men disse forringer dog ikke det samlede billede.

Observationerne burde dog kigges ekstra efter, hvis formålet med analysen var en fremskrivning af data eller konklusioner, der krævede finere detaljer.

De ekstreme observationer forringer den logaritmiske funktions tilpasning til data en smule, men viser stadig den forventede tendens.

Der estimeres en logaritmefunktion og denne indtegnes i ovennævnte diagrammet og giver det forventede billede, af datatilpasningen. (se figur 5-3, afsnit 5.2.2)

Forklaringsgraden(R²) benyttes som et numerisk mål for godt den estimerede regressionsfunktion beskriver data. Den viser således hvor meget af variationen i responsvariablen, der forklares af modellen. R² er defineret for intervallet [0:1].

Det er derfor at foretrække når værdien af R² er høj, hvilket også er tilfældet i de estimerede modeller i denne analyse.

  Model 22 Model rest Model alle
N 0,78 0,75 0,75
P 0,77 0,58 0,62
BI 0,80 0,73 0,75

Cooks D angiver indflydelsen fra de enkelte datapunkter på regressionskoefficienterne i estimationen. Dvs. at små værdier angiver, at det enkelte punkts individuelle indflydelse på regressionskoefficienterne er begrænset. I denne analyse har observationerne hver især nogenlunde samme indflydelse på estimationen. De udregnede værdier er i alle modellerne er små og tæt på nul.

Durbin-Watson's teststørrelser afgør, at der ikke er tegn på autokorrelation mellem restleddene på hverken 5% eller 1% niveau. Der er dog en enkelt model hvor teststørrelsen er tæt på den kritiske værdi ved test på 5% niveau.

Men generelt må konklusionen lyde på: ingen autokorrelation.

Test af modeller

  • Test 1 afgør om vi kan godkende at regressionerne for de 3 grupper har samme skæring med y-aksen.
  • Test 2 afgør om hældningerne på regressionerne er tilnærmelsesvis ens, dvs. udviklingen i omkostningsfunktionerne.
  • Test 3 er en test af strukturelle ændringer, testen undersøger vha. nulhypotesen om vi kan godkende at der ikke forekommer strukturelle ændringer.

Formler

Testene viser at, ingen af hypoteserne kan forkastes, det må således konkluderes, at der er tale om grupperinger af data, der kan beskrives ved approksimativt samme funktionsudtryk.

Testene godkender på både 5 og 1% niveau, at der ikke er tale om strukturelle forskelle mellem regressionerne. Testen viser således at vi kan godkende, at der ikke er umiddelbar forskel ml. renseanlæggene i de 3 datagrupperinger. [120]

Dette betyder samtidigt, at vi ikke kan afvise, at de anlæg der ikke har reageret på spildevandsafgiften, men derimod sfa. noget andet, udviser tilnærmelsesvis samme reaktionsmønster som de anlæg, der har reageret på spildevandsafgiften.

Således er det muligt, at anlæggene i grupperingen ”rest” formentlig havde reageret på spildevandsafgift hvis de ikke havde taget initiativ i forbindelse med andre ændringer i krav eller påkrævede moderniseringer.

Ligeledes er det også muligt at de rensningsanlæg, der har reageret på spildevandsafgiften, tilsvarende kunne have reageret sfa. af andre ting, hvis der eksempelvis var stillet krav til bedre rensning fra amtet eller andre.

N
  RSS n k n-k-1 Test 1 Test 2 Test 3  
Model 22 3,20E+12 21 1 19 38,14 52,35 104,70 Model 22 mod Model Rest
Model rest 8,78E+12 43 1 41 29,62 20,71 41,42 Model rest mod Model alle
Model alle 1,23E+13 65 1 63 232,74 30,32 60,64 Model alle mod Model 22
P
  RSS n k n-k-1 Test 1 Test 2 Test 3  
Model 22 3,30E+12 21 1 19 74,54 16,62 33,24 Model 22 mod Model Rest
Model rest 1,47E+12 43 1 41 95,86 612,14 1224,27 Model rest mod Model alle
Model alle 1,88E+13 65 1 63 385,05 33,80 67,60 Model alle mod Model 22
BI
  RSS n k n-k-1 Test 1 Test 2 Test 3  
Model 22 1,12E+13 21 1 19 42,06 70,35 140,71 Model 22 mod Model Rest
Model rest 3,76E+13 43 1 41 25,14 16,58 33,16 Model rest mod Model alle
Model alle 4,96E+13 65 1 63 279,76 31,71 63,41 Model alle mod Model 22

Note: RSS betegner den totale variation i yi der ikke beskrives i den tilpassede model. Det er derfor ønskeligt at RSS er så lille som muligt

Omkostningsfunktioner

Gruppe 1

Omkostningsfunktioner - Gruppe 1

Gruppe 2

Omkostningsfunktioner - Gruppe 2

Gruppe 3

Omkostningsfunktioner - Gruppe 3


Fodnoter

[120] Johnston, J., Dinardo, J.; Econometric Methods (1997), Milhøj, A. Anvendst regressionsanalyse (1993)

 



Version 1.0 November 2004, © Miljøstyrelsen.