De Normaalverdeling
We hebben in het hoofdstuk De Centrale Limietstelling gezien waarom onzekerheden op metingen zo vaak Normaal zijn verdeeld. Het is nu duidelijk dat de Normaalverdeling een belangrijke rol speelt in statistiche methodes. In dit hoofdstuk bekijken we nogmaals de Normaalverdeling en introduceren we de zogeheten -score methode die we later gaan toepassen bij de -methode en bij het toetsen van hypotheses.
De Normaalverdeling
Allereerst herhalen we de formule die jullie ook al in Module 1 hebben gezien. De Normaalverdeling is gedefinieerd als:
De functie heeft twee parameters, en . De verwachtingswaarde van de Normaalverdeling is precies en de standaardafwijking is precies gelijk aan . (De notering is niet toevallig!)
In de figuur hieronder, zie je enkele voorbeelden van de Normaalverdeling voor verschillende waardes voor en .
Er is geen relatie tussen de het gemiddelde en de standaardafwijking , lage waardes van kunnen een grotere of kleinere standaardafwijking hebben. (Anders dan bij de Poissonverdeling.) We zien dat voor hogere waardes voor de datapunten meer verspreid zijn.
Voorbeeld Stel dat we een meting doen en we kennen het populatiegemiddelde cm met een spreiding van cm. De kans dat we een meting doen die cm oplevert is dan niet zo groot. Als de spreiding rond het populatiegemiddelde daarentegen groter is, bijvoorbeeld cm dan is de kans veel groter dat de meting een waarde van cm oplevert.
Als de uitkomsten uit een experiment Normaal verdeeld zijn, en we kennen en , dan kunnen we de kans op een bepaalde uitkomst exact berekenen. Hoe grotere de afstand met , hoe kleiner de kans op dat meetresultaat. Hoe groter de standaardafwijking , hoe meer verspreid de meetuitkomsten zijn en hoe groter de kans op een grotere afstand ten opzichte van het gemiddelde . Deze kansen kunnen we exact berekenen met behulp van de Normaalverdeling.
Z-score en waarschijnlijkheden
Om de kans op een bepaalde meetuitkomst uit te drukken maken we gebruik van de oppervlaktes onder de Normaalverdeling. Dit kunnen we schematisch weergeven.
Het oppervlak onder de Normaalkromme behorende bij de kans om een waarde te vinden, kun je als volgt schematisch weergeven . Dit noemen we ook wel de linkszijdige overschrijding en we berekenen de onderkans.
Het oppervlak onder de Normaalkromme behorende bij de kans om een waarde te vinden, is hier schematisch weergegeven . Dit noemen we ook wel de rechtszijdige overschrijding en we berekenen de bovenkans.
Het oppervlak onder de kromme van een Normaalverdeling is lastig uit te rekenen, zie bijvoorbeeld de uitleg op wikipedia. We maken hierom een tussenstap en berekenen eerst de zo genoemde -score. Stel een dataset is Normaal verdeeld met gemiddelde en standaardafwijking , de -score, voor een bepaalde gemeten waarde , is dan gelijk aan:
Het oppervlak onder de Normaalkromme, behorende bij de kans op een bepaalde waarde, hangt op de volgende manier van de -score af.
De kans om een waarde te vinden is gelijk aan:
De kans om een waarde te vinden is gelijk aan:
Dit kun je zelf nagaan door schetsen te maken van de bijbehorende oppervlakken onder de normaalkromme.
Als je de -score hebt berekend, kun je uit een voorberekende tabel aflezen wat de bijbehorende overschrijdingskans is.
Hieronder laten we in twee voorbeelden zien hoe je deze methode toepast.
Voorbeeld Onderkans: Een stochast is Normaal verdeeld met gemiddelde en standaardafwijking . De kans op een waarde is nu gelijk aan
Dit is een linkszijdige overschrijding. In de z-score tabel kunnen we nu de bijbehorende kans waarde opzoeken. Dit is een waarde van . We schrijven dus
Er is in dit geval dus een kans van 0.02 dat we bij de gegeven dataset een waarde onder de 15 zullen vinden.
Voorbeeld Bovenkans: Een stochast is Normaal verdeeld met gemiddelde en standaardafwijking , de kans op een waarde is nu gelijk aan
Dit is een rechtszijdige overschrijding. In de z-score tabel kunnen we nu de bijbehorende kans waarde opzoeken. Dit is een waarde van . We schrijven dus
Er is in dit geval dus een kans van 0.16 dat we bij de gegeven dataset een waarde boven de 22 zullen vinden.
Bij een tweezijdige overschrijdingskans bereken we de waarde van een absolute afstand tot het gemiddelde. We berekenen dit door de kans op een waarde groter dan de gestelde waarde opgeteld bij de kans op een waarde kleiner dan de gestelde waarde:
Het oppervlak onder de Normaalkromme behorende bij de kans om een waarde te vinden, is hier schematisch weergegeven
Voorbeeld Dubbelzijdige kans: Een stochast is Normaal verdeeld met gemiddelde en standaardafwijking . De kans op een waarde die meer afwijkt dan 2 van het gemiddelde is nu gelijk aan
In de z-score tabel kunnen we nu de bijbehorende kans waarde opzoeken, dit is een waarde van . We schrijven dus
Er is in dit geval dus een kans van 0.69 dat we bij de gegeven dataset een waarde vinden die in absolute zin meer dan 2 afwijkt van het gemiddelde.