De χ2\chi^2 distributie

  1. De χ2\chi^2-toets
  2. Het Akaike Informatie Criterium

We hebben in het vorige hoofdstuk over de kleinste-kwadraten methode de definitie van de χ2\chi^2 schatter gezien. De χ2\chi^2 is een maat voor het verschil tussen de voorspelde en de gemeten waardes. Als een functie ff de data goed beschrijft voor de geoptimaliseerde parameters van de functie, dan zal de χ2\chi^2 klein zijn. Als de χ2\chi^2 dus groot blijft na het optimaliseren van de parameters van ff dan is er iets misgegaan. Het kan zijn dat de functie ff de datapunten niet goed kan beschrijven, maar het kan bijvoorbeeld ook zijn dat als je minimalisatie uitvoert met een computer, deze het minimum niet goed heeft weten te vinden.

Als daarentegen de χ2\chi^2 heel klein is gaat er waarschijnlijk ook iets mis. Misschien heb je de onzekerheden op de datapunten heel erg overschat.

Maar wat is precies heel groot of heel klein? Wat is de verwachtingswaarde van de χ2\chi^2? Deze vragen gaan we in dit hoofdstuk beantwoorden.

De χ2\chi^2-toets

We hebben gezien in het hoofdstuk over de kleinste kwadraten methode, dat de χ2\chi^2 gedefinieerd is als het kwadratische gewogen verschil tussen de meetwaardes en de voorspelde waardes:

χ2=i=1N(yif(xi;a^,b^,..)σi)2.{\displaystyle \chi^2 = \sum^N_{i=1} \left( \frac{y_i-f(x_i;\hat{a},\hat{b},..)}{\sigma_i} \right)^2.}

Let op dat we hier de geoptimaliseerde parameters (a^,b^,...)(\hat{a}, \hat{b}, ...) van de functie hebben ingevuld. Deze waarde voor χ2\chi^2 is dus al geminimaliseerd voor de parameters van ff.

De χ2\chi^2 verdeling zelf is een kansdichtheidsverdeling, en voldoet dus ook aan de voorwaardes hiervan. Dat wil zeggen dat het oppervlakte onder de χ2\chi^2-curve is genormaliseerd. De functie ziet er als volgt uit:

P(χ2;ν)=2ν/2Γ(ν/2)χn2eχ2/2.{\displaystyle P(\chi^2;\nu) = \frac{2^{-\nu/2}}{\Gamma (\nu/2)} \chi^{n-2} e^{-\chi^2/2}.}

De Γ\Gamma in de noemer is een speciale wiskundige functie. Deze zal pas in het tweede jaar volledig worden uitgelegd. Op dit moment kun je hem simpelweg interpreteren als een functie waar een normalisatie term uitkomt. Het is best een gekke functie, voorbeelden van uitkomsten: Γ(1/2)=π\Gamma(1/2) = \sqrt{\pi}, Γ(1)=1\Gamma(1) = 1 en Γ(3/2)=1/2π\Gamma(3/2) = 1/2 \sqrt{\pi}. Als je al meer wilt weten over de Γ\Gamma-functie dan kun je daar bijvoorbeeld hier meer over lezen.

Zoals je ziet hangt de χ2\chi^2 kans ook af van een parameter ν\nu, dit is het aantal meetpunten, nn, gereduceerd met het aantal parameters van de functie ff. We noemen ν\nu het aantal vrijheidsgraden (Engels: degrees of freedom). Het aantal vrijheidsgraden bereken je als volgt

ν=aantal meetpuntenaantal vrije parameters.{\displaystyle \nu = \textrm{aantal meetpunten} - \textrm{aantal vrije parameters}.}

Hoe meer meetpunten je gebruikt in je fit, des te groter de verwachte χ2\chi^2, omdat er groter aantal waardes wordt gesommeerd. Het aantal gefitte parameters speelt ook een rol. Hoe meer vrijheid een functie heeft des te makkelijker het is om alle meetpunten nauwkeurig te beschrijven.

Voorbeeld: Bepalen van het aantal vrijheidsgraden. Stel we hebben 10 meetwaardes en we gebruiken de kleinste kwadraten methode om 2 parameters van een functie ff te optimaliseren. We hebben dan ν=102=8\nu=10-2=8 vrijheidsgraden.

Hier zie je hoe de χ2\chi^2-curve eruit ziet voor verschillende waardes van ν\nu.

De $$\chi^2$$ verdeling.

De χ2\chi^2 distributie heeft een verwachtingswaarde μ=ν\mu = \nu en een variantie van var(χ2)=2νvar(\chi^2) = 2 \cdot \nu. Voor een gefitte functie met ν\nu vrijheidsgraden verwachten we dus een waarde voor de χ2\chi^2 te vinden die ongeveer gelijk is aan het aantal vrijheidsgraden van de fit.

Met behulp van de χ2\chi^2-curve kunnen we de overschrijdingskansen uitrekenen en aangeven hoe waarschijnlijk het is dat een functie ff met geoptimaliseerde parameters a^,b^,...\hat{a},\hat{b},... de waarnemingen uit het experiment beschrijft. Je kan nu de overschrijdingskansen voor verschillende waardes van χ2\chi^2 en vrijheidsgraden ν\nu bepalen, bijvoorbeeld met behulp van deze tabel.

Het is gemakkelijker om de waarde van de χ2\chi^2 direct te delen door het aantal vrijheidsgraden. De verwachtingswaarde voor de ratio χ2/ν\chi^2/\nu is dan altijd gelijk aan 1 en de variantie is gelijk aan var(χ2/ν)=2/νvar(\chi^2/\nu) = 2/\nu. (Deze laatste stap kan je controleren door toepassing van de regels van de foutenpropagatie.) We definiëren de gereduceerde χ2\chi^2 als:

χν2=χ2ν.{\displaystyle \chi^2_\nu = \frac{\chi^2}{\nu}.}

De gereduceerde χ2\chi^2 wordt ook wel geschreven als χ2/df\chi^2/df, χred2\chi^2_{red} of χ~2{\tilde{\chi}}^2. Je kan met de gereduceerde χν2\chi^2_\nu ook zonder de tabel al makkelijk inschatten of de fit aan de χ2\chi^2 toets voldoet. Namelijk je verwacht dan voor de χν2\chi^2_\nu een waarde van ongeveer 1 te vinden.

Als nu χν2\chi^2_\nu veel afwijkt van 1 dan is het waarschijnlijk dat er een probleem is met de fit. Het kan zijn dat de functie de relatie tussen de datapunten niet goed beschrijft, of dat er iets mis is met de onzekerheden op de datapunten.

Doorgaans betekent een veel te kleine gereduceerde chi-kwadraat (χν21\chi^2_\nu \ll 1) dat de onzekerheden op de meetwaardes overschat zijn. Een te grote waarde (χ21\chi^2 \gg 1) betekent meestal dat de functie de datapunten niet goed kan beschrijven of dat de onzekerheden zijn onderschat.

Het Akaike Informatie Criterium

Stel dat je een dataset hebt waarvan je niet zeker weet door welke functie deze het beste wordt beschreven. Je probeert twee functies uit, f1f_1 en f2f_2. Voor beide functies schat je de beste waardes voor de vrije parameters. De geminimaliseerde χ2\chi^2 waardes noemen we dan χ12\chi^2_1 en χ22\chi^2_2. Als algemene vuistregel geldt dat de functie met de kleinste geminimaliseerde χν2\chi^2_\nu de data het beschrijft. Als in dat geval de betreffende χν2\chi^2_\nu dicht bij 1 ligt werkt deze vuistregel goed.

Voorbeeld 1 Stel dat we een dataset hebben met 10 gemeten waardes. We proberen twee functies uit:

  • f1(x;a,b)=ax+b,f_1(x;a,b) = a\cdot x +b,
  • f2(x;a)=ax.f_2(x;a) = a\cdot x.

De geminimaliseerde χ2\chi^2 voor de twee functies zijn: χ12=4.0\chi^2_1 = 4.0 en χ22=13.0.\chi^2_2 = 13.0.

De χν2\chi^2_\nu is voor de twee functies:

  • χν,12=4.0/(102)=0.50,\chi^2_{\nu,1} = 4.0/(10-2) = 0.50,
  • χν,22=13.0/(101)=1.44.\chi^2_{\nu,2} = 13.0/(10-1) = 1.44.

Op basis van de vuistregel zou je functie f2f_2 kiezen.

Voorbeeld 2 Stel dat we een dataset hebben met 10 gemeten waardes. We proberen twee functies uit:

  • f1(x;a,b)=ax+b,f_1(x;a,b) = a\cdot x +b,
  • f2(x;a)=ax.f_2(x;a) = a\cdot x.

De geminimaliseerde χ2\chi^2 voor de twee functies zijn: χ12=6.0\chi^2_1 = 6.0 en χ22=9.0\chi^2_2 = 9.0.

De χν2\chi^2_\nu is voor de twee functies:

  • χν,12=6.0/(102)=0.75\chi^2_{\nu,1} = 6.0/(10-2) = 0.75
  • χν,22=9.0/(101)=1.0.\chi^2_{\nu,2} = 9.0/(10-1) = 1.0.

Op basis van de vuistregel zou je functie f2f_2 kiezen.

Als de gereduceerde chi-kwadraat echter veel kleiner is dan 1 dan kun je betwijfelen of de bijbehorende functie wel echt de beste is. Je zou dan de waarde kunnen kiezen die het dichtste bij 1 bevindt. Maar de χ2\chi^2 is niet helemaal symmetrisch en het kan zijn dat je dan toch de verkeerde keuze maakt. Dit is lastig in te schatten zonder de overschrijdingskansen exact uit te rekenen.

Beter is om dan het Akaike Informatie Criterium te gebruiken om uit te vinden welke functie het beste aan een dataset fit. Stel dat je een dataset hebt waarbij je nn meetwaardes hebt die je beschreven hebt met een functie met pp vrije parameters met een geminimaliseerde χ2\chi^2. Dan heeft het Akaike Informatie Criterium de volgende waarde:

AIC=χ2+2p+2p(p+1)np1.{\displaystyle AIC = \chi^2 + 2p + \frac{2p(p+1)}{n-p-1}.}

Als we deze AIC berekenen voor beide functies dan is de functie met de laagste AIC de meest optimale.

Voorbeeld 1 Stel dat we een dataset hebben met 10 gemeten waardes. We proberen twee functies uit:

  • f1(x;a,b)=ax+b,f_1(x;a,b) = a\cdot x +b,
  • f2(x;a)=ax.f_2(x;a) = a\cdot x.

Als geminimaliseerde χ2\chi^2 voor de twee functies vinden we: χ12=4.0\chi^2_1 = 4.0 en χ22=13.0\chi^2_2 = 13.0.

De AIC waarde voor de twee functies zijn nu:

  • AIC1=4.0+4+12/7=9.7AIC_1 = 4.0 + 4 + 12/7 = 9.7
  • AIC2=13.0+2+4/8=15.5.AIC_2 = 13.0 + 2 + 4/8 = 15.5.

Op basis van het Akaike Informatie criterium zou je functie f1f_1 kiezen.

Voorbeeld 2 Stel dat we een dataset hebben met 10 gemeten waardes. We proberen twee functies uit:

  • f1(x;a,b)=ax+b,f_1(x;a,b) = a\cdot x +b,
  • f2(x;a)=ax.f_2(x;a) = a\cdot x.

Als geminimaliseerde χ2\chi^2 voor de twee functies vinden we: χ12=6.0\chi^2_1 = 6.0 en χ22=9.0\chi^2_2 = 9.0.

De χ2\chi^2 per vrijheidsgraad is voor de twee functies:

  • AIC1=6.0+4+12/7=11.8AIC_1 = 6.0 + 4 + 12/7 = 11.8
  • AIC2=9.0+2+4/8=11.5AIC_2 = 9.0 + 2 + 4/8 = 11.5

Op basis van de vuistregel zou je functie f2f_2 kiezen.