De Normaalverdeling

  1. De Normaalverdeling
  2. Z-score en waarschijnlijkheden

We hebben in het hoofdstuk De Centrale Limietstelling gezien waarom onzekerheden op metingen zo vaak Normaal zijn verdeeld. Het is nu duidelijk dat de Normaalverdeling een belangrijke rol speelt in statistiche methodes. In dit hoofdstuk bekijken we nogmaals de Normaalverdeling en introduceren we de zogeheten zz-score methode die we later gaan toepassen bij de χ2\chi^2-methode en bij het toetsen van hypotheses.

De Normaalverdeling

Allereerst herhalen we de formule die jullie ook al in Module 1 hebben gezien. De Normaalverdeling is gedefinieerd als:

f(x)=1σ2πe12(xμσ)2.{\Large \displaystyle f(x) = \frac{1}{\sigma \sqrt{2 \pi}} e^{-\frac{1}{2}\left( \frac{x-\mu}{\sigma} \right)^2} .}

De functie heeft twee parameters, μ\mu en σ\sigma. De verwachtingswaarde van de Normaalverdeling is precies μ\mu en de standaardafwijking is precies gelijk aan σ\sigma. (De notering is niet toevallig!)

In de figuur hieronder, zie je enkele voorbeelden van de Normaalverdeling voor verschillende waardes voor μ\mu en σ\sigma.

De Normaalverdeling.

Er is geen relatie tussen de het gemiddelde μ\mu en de standaardafwijking σ\sigma, lage waardes van μ\mu kunnen een grotere of kleinere standaardafwijking hebben. (Anders dan bij de Poissonverdeling.) We zien dat voor hogere waardes voor σ\sigma de datapunten meer verspreid zijn.

Voorbeeld Stel dat we een meting doen LL en we kennen het populatiegemiddelde μL=10.0\mu_L = 10.0 cm met een spreiding van σL=2.0\sigma_L = 2.0 cm. De kans dat we een meting doen die L=4.0L=4.0 cm oplevert is dan niet zo groot. Als de spreiding rond het populatiegemiddelde daarentegen groter is, bijvoorbeeld σ=5.0\sigma=5.0 cm dan is de kans veel groter dat de meting een waarde van L=4.0L=4.0 cm oplevert.

Als de uitkomsten uit een experiment Normaal verdeeld zijn, en we kennen μ\mu en σ\sigma, dan kunnen we de kans op een bepaalde uitkomst exact berekenen. Hoe grotere de afstand met μ\mu, hoe kleiner de kans op dat meetresultaat. Hoe groter de standaardafwijking σ\sigma, hoe meer verspreid de meetuitkomsten zijn en hoe groter de kans op een grotere afstand ten opzichte van het gemiddelde μ\mu. Deze kansen kunnen we exact berekenen met behulp van de Normaalverdeling.

Z-score en waarschijnlijkheden

Om de kans op een bepaalde meetuitkomst uit te drukken maken we gebruik van de oppervlaktes onder de Normaalverdeling. Dit kunnen we schematisch weergeven.

Het oppervlak onder de Normaalkromme behorende bij de kans om een waarde x<Xx < X te vinden, kun je als volgt schematisch weergeven . Dit noemen we ook wel de linkszijdige overschrijding en we berekenen de onderkans.

Het oppervlak onder de Normaalkromme behorende bij de kans om een waarde $$x < X$$ te vinden.

Het oppervlak onder de Normaalkromme behorende bij de kans om een waarde x>Xx > X te vinden, is hier schematisch weergegeven . Dit noemen we ook wel de rechtszijdige overschrijding en we berekenen de bovenkans.

Het oppervlak onder de Normaalkromme behorende bij de kans om een waarde $$x < X$$ te vinden

Het oppervlak onder de kromme van een Normaalverdeling is lastig uit te rekenen, zie bijvoorbeeld de uitleg op wikipedia. We maken hierom een tussenstap en berekenen eerst de zo genoemde zz-score. Stel een dataset is Normaal verdeeld met gemiddelde μ\mu en standaardafwijking σ\sigma, de zz-score, voor een bepaalde gemeten waarde XX, is dan gelijk aan:

Z=Xμσ.Z = \frac{X-\mu}{\sigma}.

Het oppervlak onder de Normaalkromme, behorende bij de kans op een bepaalde waarde, hangt op de volgende manier van de zz-score af.

De kans om een waarde x<Xx < X te vinden is gelijk aan:

P(x<X)=P(Z<Xμσ)P(x < X) = P\left( Z<\frac{X-\mu}{\sigma} \right)

De kans om een waarde x>Xx>X te vinden is gelijk aan:

P(x>X)=1P(x<X)=1P(Z<Xμσ)P(x>X) = 1 - P(x< X) = 1-P\left( Z<\frac{X-\mu}{\sigma} \right)

Dit kun je zelf nagaan door schetsen te maken van de bijbehorende oppervlakken onder de normaalkromme.

Als je de zz-score hebt berekend, kun je uit een voorberekende tabel aflezen wat de bijbehorende overschrijdingskans is.

Hieronder laten we in twee voorbeelden zien hoe je deze methode toepast.

Voorbeeld Onderkans: Een stochast xx is Normaal verdeeld met gemiddelde μ=20\mu = 20 en standaardafwijking σ=2\sigma=2. De kans op een waarde x<16x<16 is nu gelijk aan

P(x<16)=P(Z<Xμσ)=P(Z<16202)=P(Z<2).\begin{aligned} P(x<16) &= P\left(Z<\frac{X-\mu}{\sigma}\right) \\ &= P\left(Z<\frac{16-20}{2}\right) \\ &= P(Z<-2). \end{aligned}

Dit is een linkszijdige overschrijding. In de z-score tabel kunnen we nu de bijbehorende kans waarde opzoeken. Dit is een waarde van 0.022750.02275. We schrijven dus

P(x<16)=P(Z<Xμσ)=0.02275.P(x<16) = P\left(Z<\frac{X-\mu}{\sigma}\right) = 0.02275.

Er is in dit geval dus een kans van 0.02 dat we bij de gegeven dataset een waarde onder de 15 zullen vinden.


Voorbeeld Bovenkans: Een stochast xx is Normaal verdeeld met gemiddelde μ=20\mu = 20 en standaardafwijking σ=2\sigma=2, de kans op een waarde x>22x>22 is nu gelijk aan

P(x>22)=1P(x<22)=1P(Z<Xμσ)=1P(Z<22202)=1P(Z<1).\begin{aligned}P(x>22) &= 1-P(x<22) \\ &= 1-P\left(Z<\frac{X-\mu}{\sigma}\right) \\ &= 1 - P\left(Z<\frac{22-20}{2}\right) \\ &= 1 - P(Z<1).\end{aligned}

Dit is een rechtszijdige overschrijding. In de z-score tabel kunnen we nu de bijbehorende kans waarde opzoeken. Dit is een waarde van 0.841340.84134. We schrijven dus

P(x>22)=1P(Z<Xμσ)=10.84134=0.15866.P(x>22) = 1 - P\left(Z<\frac{X-\mu}{\sigma}\right) = 1-0.84134 = 0.15866.

Er is in dit geval dus een kans van 0.16 dat we bij de gegeven dataset een waarde boven de 22 zullen vinden.

Bij een tweezijdige overschrijdingskans bereken we de waarde van een absolute afstand tot het gemiddelde. We berekenen dit door de kans op een waarde groter dan de gestelde waarde opgeteld bij de kans op een waarde kleiner dan de gestelde waarde:

P(xμ>X)=P(Z<Xσ)+P(Z>Xσ)=2P(Z>Xσ).{\displaystyle \begin{aligned}P(|x-\mu|>X) &= P\left(Z<\frac{-X}{\sigma}\right) + P\left(Z>\frac{X}{\sigma} \right)\\ &= 2\cdot P\left( Z>\frac{X}{\sigma} \right). \end{aligned}}

Het oppervlak onder de Normaalkromme behorende bij de kans om een waarde xμ>X|x - \mu|> X te vinden, is hier schematisch weergegeven

Het oppervlak onder de normaalkromme behorende bij de kans om een waarde $$\mid x - \mu \mid >X$$ te vinden

Voorbeeld Dubbelzijdige kans: Een stochast xx is Normaal verdeeld met gemiddelde μ=20\mu = 20 en standaardafwijking σ=4\sigma=4. De kans op een waarde die meer afwijkt dan 2 van het gemiddelde is nu gelijk aan

P(xμ>2)=2×P(Z>Xσ)=2×P(Z>24)=2×P(Z>0.5).\begin{aligned} P(|x-\mu| > 2) &= 2 \times P\left(Z > \frac{X}{\sigma}\right) \\ &= 2 \times P\left(Z > \frac{2}{4}\right) \\ &= 2\times P\left( Z > 0.5 \right). \end{aligned}

In de z-score tabel kunnen we nu de bijbehorende kans waarde opzoeken, dit is een waarde van (2×0.30854)=0.69146(2 \times 0.30854) = 0.69146. We schrijven dus

P(xμ>X)=0.69146.P(|x - \mu| >X) = 0.69146.

Er is in dit geval dus een kans van 0.69 dat we bij de gegeven dataset een waarde vinden die in absolute zin meer dan 2 afwijkt van het gemiddelde.