De willekeur van het statistisch model

Statistiek is lastig. Tijdens mijn studie toegepaste wiskunde in de jaren 70 werd het vak statistiek gegeven door wiskunde docenten.  Als vervolg op het vak kansrekening. Dat gebeurt nu nog vaak. Alsof statistiek een onderdeel van de wiskunde is. Voor mij was statistiek een struikelvak. Het enige vak waarvoor ik pas na vier pogingen een voldoende haalde. Vele jaren later, ik was toen al docent aan de universiteit, las ik het monumentale Probability Theory: the logic of science van de fysicus E.T. Jaynes. Vanaf toen werd me geleidelijk duidelijk wat kansrekening en statistiek met elkaar te maken hebben en dat statistiek beter door experimentele wetenschappers  (fysici of sociaal psychologen) onderwezen kan worden dan door wiskundigen. Althans wanneer je er meer mee wilt dan alleen een cijferbriefje halen.  Je leert pas wat statistiek inhoudt als je met gegevens moet worstelen om daaruit zinvolle informatie te halen.

In de Volkskrant van 8 september schreef Ionica Smeets in haar blog “Ionica zag een getal” over een studie die “laat zien hoe moeilijk het is om een ogenschijnlijk simpele vraag te beantwoorden met een statistische analyse.”

De ogenschijnlijk simpele vraag waar het in de betreffende studie om ging is de volgende:

Geven scheidsrechters bij voetbal eerder een rode kaart aan spelers met een donkere huidskleur dan aan spelers met een lichte huidskleur?

29 Onderzoekteams kregen de vraag voorgeschoteld. Alle teams kregen dezelfde data om te analyseren. De teams gebruikten allemaal een andere aanpak. 20 kwamen tot de conclusie dat er een “significant effect was”: donkere spelers kregen meer rode kaarten. De andere 9 teams vonden geen effect. Je kunt volgens mij op grond hiervan zeggen dat de kans dat statistici op grond van deze data tot de conclusie komen dat huidskleur een factor is die van invloed is op het oordeel van de scheidsrechter significant groter is dan 50 %.

Waarin verschilden nu die aanpakken? Ionica noemt een aantal zaken die je wel of niet mee kan nemen in je analyse van de data. De positie op het veld bijvoorbeeld. Krijgen verdedigers meer kaarten dan aanvallers en hoe zit met met de verdeling van huidskleur over deze twee posities in het veld? (De trouwe lezer van Ionica’s bog herinnert zich die over Simpson’s Paradox.)  Misschien moet je de huidskleur van de scheids meenemen? Of zijn of haar politieke voorkeur. Je kunt het zo moeilijk maken als je maar wilt.

Stel dat in de voetbalwedstrijden waarvan data beschikbaar is 50 keer een rode kaart aan een donkere speler werd gegeven en 10 keer aan een blanke speler. (Ik ga even aan het probleem voorbij van de vaagheid van de termen donker en licht als bepaling van de huidskleur. Of het bij vaagheid om een andere vorm van onzekerheid gaat dan die zich met kansrekening en statistiek laat modelleren is een fundamentele kwestie die de wetenschappelijk wereld ernstig verdeelt.)  Je kunt dan zeggen: dat is duidelijk: er werd vaker aan een donkere speler een rode kaart gegeven dan aan een lichte, namelijk 5 keer zo veel. Daar is geen speld tussen te krijgen.

Dat is echter geen antwoord op de vraag. De vraag is of scheidsrechters (in het algemeen) tijdens voetbalwedstrijden (in het algemeen) de neiging hebben om donkere spelers eerder een rode kaart te geven dan lichte spelers. Het woordje “eerder” in de vraag zoals die door Ionica werd gesteld wijst erop dat we een algemene bewering willen doen over het gedrag van scheidsrechters.

Statistiek is de wetenschap die probeert verantwoorde algemene uitspraken te doen op grond van (noodzakelijk) beperkte hoeveelheden data. Inductie problemen als deze worden aangepakt door een wiskundig model te maken dat zo goed mogelijk past bij de werkelijkheid en dat het mogelijk maakt te zeggen hoe goed de mogelijke antwoorden op de vraag zijn, gegeven de data die beschikbaar is.  Het maken van een model is geen wiskunde ook al is het resultaat een wiskundige formule of een rekenprogramma. Het is de expert (of erger: de politiek) die bepaalt hoe het model eruit ziet. Dat heeft soms alles van willekeur. De wetenschapper moet de gemaakte keuzes verantwoorden.

Het ligt voor de hand in het model mee te nemen hoeveel donkere en lichte spelers meededen. Stel dat er maar 10 lichte spelers meededen in al die wedstrijden. Of sterker nog dat er maar 1 lichte speler meedeed die 10 keer rood kreeg (uiteraard in verschillende wedstrijden). Wat zou dan de conclusie zijn? Je zou dan eerder geneigd zijn te zeggen dat de scheidsrechter lichte spelers eerder een rode kaart geeft dan donkere. Maar kun je dat wel zeggen als je data hebt van maar 1 speler met een lichte huidskleur? Zou het gedrag van deze ene speler door diens huidskleur worden bepaald? Wellicht eerder door het feit dat hij de enige blanke speler is tussen alleen maar donkere medespelers en tegenstanders.

De vraag waar het om gaat is of we op grond van de beschikbare gegevens kunnen zeggen dat voetbalscheidsrechters eerder een speler met een donkere huidskleur een rode kaart geven dan een speler met een lichte huidskleur juist vanwege de huidskleur.  Niet omdat het gedrag van spelers tijdens een wedstrijd bepaald wordt door de huidskleur maar vanwege de houding van de scheidsrechter ten opzichte van spelers met een donkere huidskleur.

De vraag is die naar een causaal verband tussen gedrag van scheidsrechters ten opzichte van spelers en de huidskleur van die spelers.  Wat statistici doen is zoeken naar correlaties tussen de waarden van variabelen. Maar correlatie is geen causale relatie. Bij een causale relatie gaat het altijd om inzicht, een theorie die uitlegt hoe een verband tot stand komt. Correlaties op grond van data analyses kunnen wijzen op een causaal verband. Statistiek is daarom slechts het begin van een studie. Helaas wordt dat vaak vergeten en zijn studenten al blij met een p-value die op een significante correlatie wijst. Aan theorie komt men niet toe.

De Regelmatigheidsaanname

Uit dit leuke praktijkvoorbeeld wordt ook duidelijk welke niet onbelangrijke aanname gemaakt wordt waarop de hele zin van statistiek en data analyse berust.  Dat is de Regelmatigheidsaanname. Toegespitst op deze specifieke casus zegt deze dat er sprake is van een zekere regelmatigheid of herhaalbaarheid in het gedrag van scheidsrechters en spelers waar het gaat over het verband tussen rode kaarten en huidskleur.

De grote vraag is of deze wel geldt. Op grond waarvan mogen we aannemen dat er zoiets bestaat als de scheidsrechter, het gedrag van blanke of donkere spelers? De toepasbaarheid van de wiskunde en het wiskundig denken in het algemeen staat of valt met de validiteit van het redeneren in zulke algemene begrippen.

Zoals Aristoteles al opmerkte: de wetenschap heeft niets te zeggen over specifieke individuen of situaties.  Ze spreekt zich slechts in algemene termen uit over abstracte categorieen.  Het kernprobleem van de statisticus is dan ook te bepalen wat de relevante categorieen in een specifieke casus zijn.

 

Published by

admin

Rieks op den Akker was onderzoeker en docent kunstmatige intelligentie, wiskunde en informatica aan de Universiteit Twente. Hij is gepensioneerd.