Extra kans rekenregels
- Begrippen
- De of-regel wanneer A en B niet wederzijds uitsluitend zijn
- Conditionele kans
- Bayes theorema
In module 1 hebben we de complement-regel, de en-regel en de of-regel geleerd voor het rekenen met kansen. Aan deze regels waren enkele voorwaarden verbonden.
De of-regel geldt alleen als de metingen A en B wederzijds uitsluitend zijn. Dat betekent dat een meting A niet kan voorkomen als B gemeten is.
Voorbeeld We trekken een kaart uit een kaartendek en willen weten wat de kans is dat de kaart rood is en wat de kans is dat de kaart een waarde 4 heeft. Er bestaan rode kaarten met getal vier en in dit geval mogen we de kansen dus niet optellen: De kansen zijn niet wederzijds uitsluitend.
We breiden de regels hier verder uit en gaan kijken naar het combineren van kansen die niet wederzijds uitsluitend zijn. We kijken ook naar het begrip conditionele kans en introduceren Bayes theorema die gebruikt kan worden om informatie van kansen om te rekenen.
Begrippen
We introduceren eerst de begrippen die we nodig hebben in dit hoofdstuk.
De vereniging, ook wel de unie, van en wordt genoteerd met en is de verzameling van alle elementen van A en B.
De term noemen we ook wel de doorsnede, of intersectie, van A en B. Het is het overlappende deel van elementen in de verzameling. De doorsnede wordt ook wel genoteerd met .
Het complement van wordt genoteerd met en is het deel van de uitkomstenverzameling dat niet in ligt.
Bovenstaande definities kunnen we ook visueel weergeven in Venn diagrammen.
De of-regel wanneer A en B niet wederzijds uitsluitend zijn
In het geval A en B niet wederzijds uitsluitend zijn dan geldt:
De kans dat A of B gemeten wordt is dan:
Voorbeeld De kans dat een getrokken kaart rood is en een vier als uitkomst heeft is . De kans dat een getrokken kaart òf rood is òf een vier is nu gelijk aan
Conditionele kans
Een conditionele kans wordt geschreven als en kun je lezen als “Wat is de kans op meting gegeven dat de bekend is dat geldt ”. We hebben dus al wat informatie over de meting (namelijk de uitkomst ligt in elk geval in ) en we willen weten wat de kans op uitkomst is. Een conditionele kans kan je niet zomaar omkeren:
Een sprekend voorbeeld hiervan is de volgende. De kans dat een persoon zwanger is gegeven dat de persoon een vrouw is, , is niet gelijk aan de kans dat iemand een vrouw is gegeven dat de persoon zwanger is, . De laatste kans is duidelijk gelijk aan 1. Als je zwanger bent ben je zeker een vrouw. De eerste kans is een stuk kleiner!
De conditionele kans kunnen we berekenen met:
De noemer in deze vergelijking, , noemen we ook wel een normalisatie term. De kans moet genormaliseerd worden naar de kans , immers het is al een gegeven dat waar is.
Visueel is dit wellicht het meest eenvoudige om te zien. Als het gegeven is dat de uitkomst in het deelgebied B ligt, dan is de kans dat het ook de waarde A bezit gelijk aan het oppervlak van de overlap tussen A en B gedeeld door het oppervlak van B. Dat de uitkomst in B ligt weten we al, dus we moeten de kans ‘normaliseren’ naar B.
Bayes theorema
Met behulp van de conditionele kans formule kunnen we nu Bayes theorema afleiden.
Een belangrijke stap is om te realiseren dat de doorsnede van en natuurlijk precies hetzelfde is als de doorsnede van en . En dus geldt:
Als we de formule van de conditionele kans nu anders opschrijven vinden we de vergelijking
Deze vergelijking combineren we nu met de vergelijking voor :
ofwel
Deze formule heet het Bayes theorema en blijkt een van de meest krachtige formules om kansen te berekenen. Het beste is om dit te demonstreren met een voorbeeld.
Voorbeeld Een patiënt komt bij de huisartsenpost met pijnklachten in de buik, de doktersassistent vermoedt een blaasontsteking en onderzoekt de urine met een zogeheten combinatietest.
De test is relatief betrouwbaar. Slechts in 5% van de tests volgt er een positieve testuitslag terwijl de patiënt niet ziek is. Dit noem je een fout-positieve uitslag en noteren we hier als . In 3% van de gevallen is de testuitslag fout-negatief; de patiënt heeft een blaasontsteking maar de uitslag is toch negatief. De fout-negatieve kans noteren we met .
Voordat de testuitslag bekend is weet de assistent al wat de voorafkans is, de voorafkans is de kans dat een patiënt met die type klachten een blaasontsteking heeft. Dit weet men door jarenlange ervaring in de praktijk. De voorafkans is verschillend voor kinderen () en volwassen (). Kinderen hebben ook vaak om andere reden buikpijn.
De testuitslag is positief. Wat is nu de kans dat de patiënt daadwerkelijk een blaasontsteking heeft?
Wat we dus willen weten is de kans , namelijk wat is de kans dat de patiënt ziek is gegeven de positieve testuitslag.We gebruiken Bayes theorema om dit te berekenen.
We kennen , namelijk dit is de fout-positief en we kennen de fout-negatief . De voorafkans is hangt af van de leeftijd van de patiënt (kind/volwassene). Voor Bayes theorema moeten we ook nog de kans op uberhaupt een positieve testuitslag weten, dit is . Deze kunnen we berekenen met de volgende formule:
Namelijk, er zijn twee opties. Je krijg een positieve uitslag en je bent inderdaad ziek. Of je krijgt een positieve uitslag terwijl je helemaal niet ziek bent. In beide gevallen moet je dit vermenigvuldigen met de kans op de bijbehorende toestand (ziek of niet ziek). We zijn er hierbij vanuit gegaan dat een testuitslag altijd positief of negatief is.
De kans hebben we al gezien, dat is de fout-positief. De kans is gelijk aan het complement van de fout-negatief dus Immers als je ziek bent heb je kans op een negatieve uitslag, alle andere kansen zijn dus positief
Invullen voor kinderen geeft:
We vullen dit in in Bayes theorema:
Van de kinderen met een positieve test uitslag heeft dus ook daadwerkelijk een blaasontsteking. Dit is een stuk lager dan we misschien zouden verwachten. De test is namelijk betrouwbaar, in van de gevallen met blaasontsteking geeft de test immers het juiste resultaat. Deze afwijking heeft te maken met de lage voorafkans bij kinderen; het is nog redelijk waarschijnlijk dat het kind niet ziek is maar een fout-positieve uitslag heeft.
De kans dat het kind niet ziek is bij een positieve uitslag is dus .
Reken nu zelf de kans uit voor een volwassene en controleer dat dit gelijk is aan . Deze kans is veel groter dan bij de kinderen. Dit heeft alles te maken met de grotere voorafkans.
We hebben in deze twee voorbeelden gezien hoe we informatie over conditionele kansen kunnen omzetten. Het theorema van Bayes maakt het mogelijk om nieuwe informatie te gebruiken. De achterafkans wordt berekend met een test uit voorafkans (ook wel prior), een testuitslag en een normalisatie. De normalisatie is in het geval van het voorbeeld de kans , de kans dat er überhaupt een positieve uitslag volgt.
Voordat de patiënt de test afnam konden we alleen afgaan op de praktijkervaring van de assistent. Een blaasontsteking bij een kind is onwaarschijnlijk (slechts ) en bij een volwassene waarschijnlijk (). Na het uitvoeren van de test hebben we meer informatie, maar nog steeds is het belangrijk om de ervaring van de assistent mee te nemen (de voorafkans), maar ook mee te nemen hoe groot de kans is op een positieve testuitslag (de normalisatie). Dat een patiënt daadwerkelijk een blaasontsteking heeft is in beide gevallen (kind/volwassene) waarschijnlijk, maar bij een kind is het misschien goed om ook nog even wat andere oorzaken uit te sluiten.