Basisbegrippen in de statistiek
- Datasets beschrijven - wat is een statistiek?
- Veel gebruikte parameters en statistieken
- Spreiding van data
- Samenvatting
- Voorbeelden
Datasets beschrijven - wat is een statistiek?
Als we een set metingen (data) hebben verzameld kunnen we deze op verschillende manieren gebruiken. Meestal nemen we de data omdat we bepaalde eigenschappen willen weten.
Stel we hebben een dataset met de temperatuur op elk van de 37 meetpunten van het KNMI in Nederland in de afgelopen twintig jaar. Je kan uit deze dataset natuurlijk verschillende dingen te weet komen. Bijvoorbeeld de jaargemiddeldes op de verschillende meetpunten, of de maximale of minimale temperatuur die gemeten is. Of bijvoorbeeld hoeveel kouder de winters in het binnenland zijn ten opzichte van de regio’s aan de kust. Het is in elk geval niet zo inzichtelijk om aan medewetenschappers alleen de enorme tabel aan datapunten te presenteren.
Een eigenschap van een dataset die je kan definiëren noemen we een statistiek. Sommige statistieken zoals bijvoorbeeld ‘het gemiddelde’ worden heel veel gebruikt.
Meestal proberen we met statistieken een algemene grootheid te bepalen maar is onze dataset beperkt. Bijvoorbeeld als je ‘de massa van het electron’ wilt bepalen kun je natuurlijk niet letterlijk van alle electronen in het heelal de massa meten. Als je verwacht dat alle electronen dezelfde massa hebben dan volstaat het natuurlijk om de massa van een enkel electron te meten. Denk je dat de grootheid die je wilt bepalen wel varieert, dan zul je met een enkele meting niet genoeg te weten komen. Bijvoorbeeld als je wilt weten hoe veel kouder het in de winter in het binnenland is ten opzichte van de kust gebieden in Nederland. Dan zal een enkele meting op een winterse dag niet voldoende zijn.
In de hoofdstuk gaan we hier verder op in en zullen we daarna ook we verschillende veelvoorkomende definities van statistieken definiëren.
Populatie versus steekproef
Voordat we het gaan hebben over de kenmerken van data is het belangrijk om te kijken naar de data zelf. Waar komt die vandaan? We maken hierbij onderscheid tussen de populatie en een steekproef.
Een populatie bestaat uit alle personen/dieren/objecten binnen de groep waarin we geïnteresseerd zijn. Dit zouden bijvoorbeeld alle mensen in Nederland kunnen zijn tussen de 30 en 40 jaar, of alle lieveheersbeestjes die in Noorwegen leven. Nu is het zo dat het vaak lastig is om van alle personen/dieren/objecten (hierna uniform aangeduid met ‘elementen’) van een groep gegevens te verzamelen. Het kost bijvoorbeeld erg veel tijd (en geld) om data te verzamelen over alle personen tussen de 30 en 40 jaar in Nederland (of om alle lieveheersbeestjes in Noorwegen te vangen). Het is dan veel makkelijker om data over een deel van deze groep te verzamelen om zo toch iets te kunnen zeggen over de gehele doelgroep. Zo zouden we bijvoorbeeld data kunnen verzamelen van een willekeurige selectie van 200 personen in Nederland tussen de 30 en 40 jaar. Dit wordt een steekproef genoemd, de deelgroep wordt in het Engels vaak aangeduid met een sample. Een steekproef is dus een gedeelte van de populatie. Vaak is het trouwens zelfs helemaal niet mogelijk om de hele populatie te meten. Denk bijvoorbeeld maar eens aan de gemiddelde massa van een ster. Dan zouden we deze meting moeten verrichten voor alle sterren in het universum.
We maken onderscheid in de namen en de notatie van de kenmerken van data. Kenmerken van meetgegevens (data) van een populatie noemen we parameters, kenmerken van steekproeven noemen we statistieken. Het is belangrijk om onderscheid te maken. Als we bijvoorbeeld de gemiddelde leeftijd willen weten van alle eerstejaars Natuur- en Sterrenkunde studenten in Amsterdam dan maakt het uit of we de gegevens hebben verzameld van alle eerstejaars of dat we de gemiddelde leeftijd inschatten door de gegevens te noteren van de studenten uit je eigen werkgroep. In het eerste geval hebben we gegevens van de hele populatie en spreken we van een parameter en weten we de uitkomst exact. In het tweede geval hebben we een steekproef gedaan van een selectie van de eerstejaars, we spreken dan van een statistiek en op deze statistiek komt een onzekerheid. We hebben immers niet alle informatie van de populatie en het kan zijn dat het gemiddelde van de steekproef afwijkt van het gemiddelde van de gehele populatie. Het is dus belangrijk om je te realiseren of je de gegevens bekijkt van een steekproef of een populatie als je de resultaten interpreteert.
Als je een steekproef neemt is het belangrijk om op twee dingen goed te letten: de grootte van de steekproef en hoe representatief deze is. Je kunt je voorstellen dat als we de lengte van drie mensen in Nederland meten, we nog niet zoveel kunnen zeggen over de lengte van de gehele populatie die bestaat uit alle mensen in Nederland. Als we de lengte van 1000 mensen zouden meten dan krijgen we al een beter beeld van de verdeling van lichaamslengte in Nederland, en kiezen we 100.000 mensen dan krijgen we een nog veel beter beeld van de verdeling. Hoe groter de steekproef, hoe nauwkeuriger de statistiek is die we willen weten. (We zeggen dan vaak dat we meer statistiek hebben.)
Ook is het belangrijk hoe we de steekproef nemen. Als we bijvoorbeeld de lengte gegevens van 1000 mensen nemen dan krijgen we een vertekend beeld als we hiervoor de leden van de Nederlandse Basketbal vereniging uitnodigen, of de gegevens van 1000 kleuters hiervoor gebruiken. Je moet dus altijd goed kijken of de steekproef de je neemt wel representatief is voor de hele groep.
Veel gebruikte parameters en statistieken
Het gemiddelde
Het gemiddelde van een dataset geeft een maat voor het centrum van de waarden die de dataset aanneemt. We onderscheiden het populatiegemiddelde (parameter) en het steekproefgemiddelde (statistiek). Hoe groter de steekproef hoe meer het gemiddelde van de steekproef overeenkomt met het populatiegemiddelde.
Het gemiddelde kun je berekenen door alle waardes in de dataset te sommeren en te delen door de grootte van de dataset. We maken onderscheid in de notatie voor het gemiddelde van een steekproef en die van het populatiegemiddelde.
Het steekproef gemiddelde (x-streep of in het Engels: x-bar) van een dataset is de som van de waarden in de set gedeeld door het aantal datapunten in de steekproef: :
Het steekproef gemiddelde wordt zo vaak gebruikt dat dit veelal wordt aangeduid als ‘het gemiddelde’. Voor het gemiddelde wordt ook vaak de ‘vishaak-notatie’ gebruikt:
Het populatiegemiddelde wordt als volgt genoteerd:
Hierbij is het aantal elementen in de populatie, en zijn de waardes van de grootheid in de populatie. Let op dat voor de steekproefgrootte wordt gebruikt en voor de populatiegrootte Een andere veel gebruikte notatie voor het populatiegemiddelde is waar de E van het Engelse woord expectation komt. Ook kun je een subscript toevoegen om aan te geven van welke grootheid je het gemiddelde berekent, bijvoorbeeld hier
Je ziet dat het steekproef gemiddelde erg lijkt op de uitdrukking voor het populatiegemiddelde. Het verschil is dat het steekproefgemiddelde niet persé gelijk is aan de verwachtingswaarde van de populatie. Het is wel zo dat, hoe beter de steekproef overeenkomt met de populatie, des te dichter komt het steekproef gemiddelde bij de verwachtingswaarde van de populatie. Met behulp van een goed uitgevoerde steekproef kan het statistische gedrag van een populatie dus benaderd worden.
Voorbeeld Stel je voor dat we de volgende steekproef hebben:
De gemiddelde waarde voor de data is nu dus
De mediaan
De mediaan is een maat voor het midden van de elementen in een gesorteerde dataset of verdeling. De mediaan is zo gedefinieerd dat je precies 50% kans hebt om een waarde te vinden die lager is dan de mediaan en 50% kans om een waarde te vinden die hoger is dan de mediaan.
Als we alle datapunten in een dataset sorteren van lage naar hoge waarde, dan is de mediaan de waarde van het element in het midden van de set. Is er sprake van een even aantal elementen dan is de mediaan de gemiddelde waarde van de twee elementen in het midden van de set.
Voorbeeld Stel dat we de volgende dataset hebben:
Het eerste wat we moeten doen om de mediaan te vinden is de dataset sorteren:
We hebben een dataset met een even aantal datapunten, de mediaan ligt hier dus tussen twee waardes in.
De mediaan en het gemiddelde kunnen dezelfde waarde hebben, maar dat hoeft niet zo te zijn. Voor het voorbeeld hierboven is dat wel het geval (reken maar na). Maar voor de dataset uit het voorbeeld voor het berekenen van het gemiddelde is dit niet zo. Kijk maar!
Voorbeeld We bekijken de steekproef
Het gemiddelde was berekend op 4.4. We gaan nu kijken waar de mediaan ligt. Eerst sorteren we de dataset:
Dit is een oneven dataset en de mediaan ligt dus op de middelste waarde van de gesorteerde dataset: 1.
Voor symmetrische datasets zijn het gemiddelde en de mediaan altijd gelijk aan elkaar, voor asymmetrische datasets is dit niet het geval. Bij een symmetrische dataset is de data precies gespiegeld rond het gemiddelde. Dit is makkelijker uit te leggen aan de hand van datadistributies. We komen hier later op terug.
De modus
De modus van een dataset is de waarde die met relatief de grootste frequentie in de dataset voorkomt ten opzichte van de omliggende punten. Hebben we bijvoorbeeld de dataset
dan komen de 3, de 4 en de 9 elk één keer voor, het getal 2 komt twee keer voor en het getal 7 komt drie keer voor. Het meest voorkomende getal is dus de 7 en dit is de modus van de dataset. Als een dataset één modus heeft dan wordt deze unimodaal genoemd.
Het komt ook voor dat er twee of meer getallen zijn die vaker voorkomen dan andere waardes. Een dataset met twee getallen als modus wordt ook wel bimodaal genoemd, een dataset met meer dan twee getallen als modus wordt multimodaal genoemd.
Een voorbeeld van een bimodale dataset is:
zowel het getal 4 als het getal 11 komen drie keer voor in de set. De set is dus bimodaal met modus 4 en modus 11.
Bij sommige soorten dataverdelingen is het gebruikelijker om over de modus te praten dan over het gemiddelde of de mediaan. Een voorbeeld hiervan is de Landau distributie die een slecht gedefinieerd gemiddelde of mediaan kent door een lange staart in de distributie.
Voor unimodale symmetrische distributies ligt het gemiddelde, de mediaan en de modus precies op dezelfde plek.
Spreiding van data
De spreiding geeft een beeld van de mate waarin datapunten in een set verspreid zijn. Er zijn verschillende maten om de spreiding van een dataset mee aan te geven. Hieronder zullen we de spreidingsbreedte (ook wel de range), de variantie, coëfficiënt van variantie en de standaardafwijking (ook wel de standaarddeviatie) bespreken.
Spreidingsbreedte (range)
De range is de afstand tussen de hoogste en de laagste waarde in een dataset. Hebben we bijvoorbeeld de dataset
dan is de range van deze dataset gelijk aan
De range geeft dus aan hoe breed de dataset in totaliteit is. De range is niet altijd een handige maat voor de spreiding van een dataset. Zo zouden we bijvoorbeeld de volgende dataset kunnen hebben:
De range is in dit geval Maar stel dat we een foutieve meting doen (of we maken een typefout in het overnemen van de data), en we hebben de volgende dataset:
De range wordt nu Dus onder invloed van één foutief datapunt geeft de range nu een veel grotere mate van spreiding aan.
Standaardafwijking en variantie
De standaardafwijking geeft aan in welke mate de data verspreid is rondom het gemiddelde van de dataset. Dit geeft met name ook een maat voor de spreiding van de datapunten onderling. Hoe groter de standaardafwijking des te groter is de spreiding tussen de afzonderlijke punten. De standaardafwijking voor de populatie wordt aangeduid met , voor een steekproef noteren we dit met
De variantie, var, is direct gerelateerd aan de standaardafwijking, namelijk de variantie is gelijk aan de standaardafwijking in het kwadraat. Voor de populatie geldt dus var = De variantie van een steekproef noteren we met
De variantie en standaardafwijking van een populatie kunnen worden berekend met de volgende formule:
of in het geval van de steekproef:
Let op dat de eenheid van de variantie het kwadraat is van de eenheid van In het geval dat je bijvoorbeeld lengtes van luciferstokjes hebt opgemeten, dan zullen de waardes in cm zijn genoteerd. De variantie heeft dan de eenheid cm Dat kan soms best onhandig zijn, vandaar dat we vaker de standaardafwijking gebruiken. De standaardafwijking heeft altijd dezelfde eenheid als de originele elementen van de dataset.
Je kan wiskundig aantonen dat je voor het berekenen van de variantie ook de volgende formule mag gebruiken:
Soms is deze formule makkelijker in het gebruik.
Variatiecoëfficiënt
De variatiecoëfficiënt wordt ook wel de relatieve standaardafwijking genoemd. De coëfficiënt van variatie geeft, net zoals de standaardafwijking en de variantie, een maat voor de spreiding van de populatie of dataset.
De variatiecoëfficiënt wordt gegeven door de verhouding tussen de standaardafwijking en het gemiddelde. Voor een populatie is de coëfficiënt van variantie dan:
Met de standaardafwijking van de populatie en het populatiegemiddelde.
De steekproef variantie wordt gegeven door:
Met de standaardafwijking van de steekproef en het steekproef gemiddelde.
Het verschil met de variantie en de standaardafwijking is dat de variatiecoëfficiënt dimensieloos is. Dit is bijvoorbeeld handig als er meerdere datasets vergeleken moeten worden die verschillende eenheden hebben. Ook als de gemiddelde waarden van verschillende datasets erg uiteen liggen is het beter om de variatiecoëfficiënt te gebruiken i.p.v. de standaardafwijking.
Een nadeel van het gebruik van de variatiecoëfficiënt is dat er gedeeld wordt door het gemiddelde. Als dit gemiddelde een heel kleine waarde heeft, dicht bij nul, dan is de variatiecoëfficiënt slecht gedefinieerd.
Samenvatting
kenmerk | populatie (parameter) | steekproef (statistiek) |
---|---|---|
grootte | ||
gemiddelde | ||
standaardafwijking | ||
variantie | ||
variatiecoëfficiënt |
Voorbeelden
We berekenen de eigenschappen van een aantal datasets als voorbeeld.
Voorbeeld: Een populatie
We hebben de volgende dataset van een populatie:
We bepalen nu hieronder de verschillende parameters die horen bij deze populatie.
- De grootte is dus N = 7.
Om de mediaan te bepalen sorteren we eerst de datapunten van klein naar groot: Het is een even aantal datapunten en de mediaan ligt op 53.
- De spreidingsbreedte:
- Het gemiddelde:
De standaardafwijking is:
geeft- De variantie = 8997.6.
- De variatiecoëfficiënt
Voorbeeld: Een steekproef
Stel we hebben een steekproef gedaan van de lengte van eerstejaars studenten. De volgende dataset is hiervoor verzameld:
Hieronder bepalen we de statistieken voor deze steekproef.
- De grootte van de steekproef:
- De spreidingsbreedte is m- m cm.
- De mediaan ligt in het midden van de gesorteerde dataset. Dit is 1.79 m.
- Het gemiddelde m.
De variantie is:
- De standaardafwijking is m.
- De variatiecoëfficiënt is