De willekeur van het statistisch model

Statistiek is lastig. Tijdens mijn studie toegepaste wiskunde in de jaren 70 werd het vak statistiek gegeven door wiskundedocenten.  Als vervolg op het vak kansrekening. Dat gebeurt nu nog vaak. Alsof statistiek een onderdeel van de wiskunde is. Voor mij was statistiek een struikelvak. Het enige vak waarvoor ik pas na vier pogingen een voldoende haalde. Vele jaren later, ik was toen al docent aan de universiteit, las ik het monumentale Probability Theory: the logic of science van de fysicus E.T. Jaynes. Vanaf toen werd me geleidelijk duidelijk wat kansrekening en statistiek met elkaar te maken hebben en dat statistiek beter door experimentele wetenschappers  (fysici of sociaal psychologen) onderwezen kan worden dan door wiskundigen. Althans wanneer je er meer mee wilt dan alleen een cijferbriefje halen.  Je leert pas wat statistiek inhoudt als je met gegevens moet worstelen om daaruit zinvolle informatie te halen.

In de Volkskrant van 8 september schreef Ionica Smeets in haar blog “Ionica zag een getal” over een studie die “laat zien hoe moeilijk het is om een ogenschijnlijk simpele vraag te beantwoorden met een statistische analyse.”

De ogenschijnlijk simpele vraag waar het in de betreffende studie om ging is de volgende:

Geven scheidsrechters bij voetbal eerder een rode kaart aan spelers met een donkere huidskleur dan aan spelers met een lichte huidskleur?

29 Onderzoekteams kregen de vraag voorgeschoteld. Alle teams kregen dezelfde data om te analyseren. De teams gebruikten allemaal een andere aanpak. 20 kwamen tot de conclusie dat er een “significant effect was”: donkere spelers kregen meer rode kaarten. De andere 9 teams vonden geen effect. Je kunt volgens mij op grond hiervan zeggen dat de kans dat statistici op grond van deze data tot de conclusie komen dat huidskleur een factor is die van invloed is op het oordeel van de scheidsrechter significant groter is dan 50 %.

Waarin verschilden nu die aanpakken? Ionica noemt een aantal zaken die je wel of niet mee kan nemen in je analyse van de data. De positie op het veld bijvoorbeeld. Krijgen verdedigers meer kaarten dan aanvallers en hoe zit met met de verdeling van huidskleur over deze twee posities in het veld? (De trouwe lezer van Ionica’s bog herinnert zich die over Simpson’s Paradox.)  Misschien moet je de huidskleur van de scheids meenemen? Of zijn of haar politieke voorkeur. Je kunt het zo moeilijk maken als je maar wilt.

Stel dat in de voetbalwedstrijden waarvan data beschikbaar is 50 keer een rode kaart aan een donkere speler werd gegeven en 10 keer aan een blanke speler. (Ik ga even aan het probleem voorbij van de vaagheid van de termen donker en licht als bepaling van de huidskleur. Of het bij vaagheid om een andere vorm van onzekerheid gaat dan die zich met kansrekening en statistiek laat modelleren is een fundamentele kwestie die de wetenschappelijk wereld ernstig verdeelt.)  Je kunt dan zeggen: dat is duidelijk: er werd vaker aan een donkere speler een rode kaart gegeven dan aan een lichte, namelijk 5 keer zo veel. Daar is geen speld tussen te krijgen.

Dat is echter geen antwoord op de vraag. De vraag is of scheidsrechters (in het algemeen) tijdens voetbalwedstrijden (in het algemeen) de neiging hebben om donkere spelers eerder een rode kaart te geven dan lichte spelers. Het woordje “eerder” in de vraag zoals die door Ionica werd gesteld wijst erop dat we een algemene bewering willen doen over het gedrag van scheidsrechters.

Statistiek is de wetenschap die probeert verantwoorde algemene uitspraken te doen op grond van (noodzakelijk) beperkte hoeveelheden data. Inductie problemen als deze worden aangepakt door een wiskundig model te maken dat zo goed mogelijk past bij de werkelijkheid en dat het mogelijk maakt te zeggen hoe goed de mogelijke antwoorden op de vraag zijn, gegeven de data die beschikbaar is.  Het maken van een model is geen wiskunde ook al is het resultaat een wiskundige formule of een rekenprogramma. Het is de expert (of erger: de politiek) die bepaalt hoe het model eruit ziet. Dat heeft soms alles van willekeur. De wetenschapper moet de gemaakte keuzes verantwoorden.

Het ligt voor de hand in het model mee te nemen hoeveel donkere en lichte spelers meededen. Stel dat er maar 10 lichte spelers meededen in al die wedstrijden. Of sterker nog dat er maar 1 lichte speler meedeed die 10 keer rood kreeg (uiteraard in verschillende wedstrijden). Wat zou dan de conclusie zijn? Je zou dan eerder geneigd zijn te zeggen dat de scheidsrechter lichte spelers eerder een rode kaart geeft dan donkere. Maar kun je dat wel zeggen als je data hebt van maar 1 speler met een lichte huidskleur? Zou het gedrag van deze ene speler door diens huidskleur worden bepaald? Wellicht eerder door het feit dat hij de enige blanke speler is tussen alleen maar donkere medespelers en tegenstanders.

De vraag waar het om gaat is of we op grond van de beschikbare gegevens kunnen zeggen dat voetbalscheidsrechters eerder een speler met een donkere huidskleur een rode kaart geven dan een speler met een lichte huidskleur juist vanwege de huidskleur.  Niet omdat het gedrag van spelers tijdens een wedstrijd bepaald wordt door de huidskleur maar vanwege de houding van de scheidsrechter ten opzichte van spelers met een donkere huidskleur.

De vraag is die naar een causaal verband tussen gedrag van scheidsrechters ten opzichte van spelers en de huidskleur van die spelers.  Wat statistici doen is zoeken naar correlaties tussen de waarden van variabelen. Maar correlatie is geen causale relatie. Bij een causale relatie gaat het altijd om inzicht, een theorie die uitlegt hoe een verband tot stand komt. Correlaties op grond van data analyses kunnen wijzen op een causaal verband. Statistiek is daarom slechts het begin van een studie. Helaas wordt dat vaak vergeten en zijn studenten al blij met een p-value die op een significante correlatie wijst. Aan theorie komt men niet toe.

De Regelmatigheidsaanname

Uit dit leuke praktijkvoorbeeld wordt ook duidelijk welke niet onbelangrijke aanname gemaakt wordt waarop de hele zin van statistiek en data analyse berust.  Dat is de Regelmatigheidsaanname. Toegespitst op deze specifieke casus zegt deze dat er sprake is van een zekere regelmatigheid of herhaalbaarheid in het gedrag van scheidsrechters en spelers waar het gaat over het verband tussen rode kaarten en huidskleur.

De grote vraag is of deze wel geldt. Op grond waarvan mogen we aannemen dat er zoiets bestaat als de scheidsrechter, het gedrag van blanke of donkere spelers? De toepasbaarheid van de wiskunde en het wiskundig denken in het algemeen staat of valt met de validiteit van het redeneren in zulke algemene begrippen.

Zoals Aristoteles al opmerkte: de wetenschap heeft niets te zeggen over specifieke individuen of situaties.  Ze spreekt zich slechts in algemene termen uit over abstracte categorieen.  Het kernprobleem van de statisticus is dan ook te bepalen wat de relevante categorieen in een specifieke casus zijn.

Is verantwoord gebruik van autonome technologie mogelijk?

Door de indrukwekkende mogelijkheden van de informatietechnologie laat men zich vaak al te gemakkelijk verleiden tot een overdrijving van de zelfstandigheid van de producten van die techniek. Wat principieel een relatieve zelfstandigheid is met betrekking tot het menselijk gebruik, wordt dan voorgesteld als een absolute zelfstandigheid, die ook buiten dit gebruik om zou kunnen bestaan. Buiten het gebruik om is echter bijvoorbeeld de werking van een computer slechts een natuurproces dat niet principieel verschilt van het vallen van een steen.

Bovenstaande tekst is uit “Arbeid en (kunstmatige) intelligentie” een essay uit 1989 van de filosoof Louk Fleischhacker. In dit essay legt Fleischhacker een verband tussen wat hij noemt de praktische problematiek van de autonome technische systemen (robots, expertsystemen) enerzijds en de theoretische vraag naar de mogelijkheid van kunstmatige intelligentie anderzijds. De praktische problematiek is de gebruiksonvriendelijkheid die erin bestaat dat dergelijke systemen “nog minder verantwoordelijkheidsgevoel bezitten dan de ergste bureaucraat!”. In beide vragen, de praktische en de theoretische, gaat het om de relatie tussen menselijk kunnen en het functioneren van automatische systemen.

Zo’n 20 jaar na het verschijnen van deze tekst lezen we in de populaire media nog wekelijks berichten over de indrukwekkende mogelijkheden van de informatietechnologie: de zegeningen enerzijds (vervelend werk wordt door computers en robots overgenomen) en de transhumanistische doemscenarioos waarin superintelligente robots (de Terminator) de mensheid bedreigen, anderzijds. Steeds meer experts op het gebied van de AI tonen hun verontwaardiging over de sensationele berichten in de media.  Zachary Lipton, van het machine learning department van Carnegie Mellon University, spreekt van de “sensationalized crap” die in de media verschijnt over sociale robots of chatbots die  gesprekken voeren en een eigen taal zouden ontwikkelen. Dit fantastische beeld van de mogelijkheden van kunstmatige intelligentie wordt gepresenteerd met verwijzing naar wetenschappelijk onderzoek terwijl het met de conclusies uit dat onderzoek niets meer te maken heeft.

“Wat principieel een relatieve zelfstandigheid is met betrekking tot het menselijk gebruik, wordt dan voorgesteld als een absolute zelfstandigheid, die ook buiten dit gebruik om zou kunnen bestaan.” 

Wat Fleischhacker hier zegt over de kunstmatig intelligente machine, kunnen we ook zeggen over de woorden en zinnen van de taal. Die hebben slechts een bepaalde betekenis in het gebruik ervan. Buiten dat gebruik is een teken een ‘betekenisloos’ iets. De zelfstandigheid van de taal is dus niet absoluut maar betrekkelijk ten opzicht van het gebruik.

Niet  alleen journalisten, ook wetenschappers die hun resultaten in voor de leek begrijpelijke woorden uit proberen te leggen dichten de producten van kunstmatige intelligentie menselijke capaciteiten toe. Zoals in onderstaand citaat uit een interview met Vanessa Evers, social robotica expert.

“Robots kunnen we menselijk gedrag laten herkennen door in een computer een enorme hoeveelheid plaatjes en videobeelden van gezichtsuitdrukkingen voor emoties in te voeren”. (…) “Plaatjes met een bepaalde stand van de mondhoeken en de ogen, die de robot herkent als lachen, verdriet, stress, woede, gecombineerd met stemgeluid. Na een tijdje heeft een robot dat in zijn zelflerende systeem opgeslagen en weet hij hoe daarop te reageren.”

Robots herkennen menselijk gedrag, en emoties, ze kunnen leren en betekenisvol reageren op hun omgeving. Moeten we dit soorten teksten letterlijk nemen? Maar, wat is er mis met van gedrag te spreken als het om robots of machines gaat? We zeggen toch ook dat de computer iets uitrekent of dat de machine ons vraagt een wachtwoord in te tikken? De bruikbaarheid van de computer zit hem toch juist in het feit dat deze zelfstandig een taak kan uitvoeren: een vraag stellen, iets voor ons uitrekenen. Voor het uitvoeren van die taken zijn ze toch juist gemaakt!

Hoe zouden we anders moeten zeggen wat de robot of machine doet als we niet die woorden mogen gebruiken die we gebruiken als we beschrijven wat mensen doen? We zouden telkens wanneer we het over een technisch ding hebben de woorden tussen aanhalingstekens kunnen plaatsen om aan te geven dat we het gezegde niet letterlijk moeten nemen, maar alleen maar bij wijze van spreken: de robot “stelt een vraag” , of de computer “denkt even na”.  De filosoof D.C. Dennett gebruikt wel de “soort van”-constructie (zie zijn: “De ‘soort van’-operator”, Hoofdstuk 21 in “Gereedschapskist voor het denken”).  De computer soort van denkt na. Maar wat is het verschil tussen denken van de mens en het soort-van denken van de computer? Volgens Dennett is er geen principiele scheidslijn tussen “soort van” denken en “denken”.  Er is slechts een gradueel verschil tussen het functioneren van een sociale robot en het gedrag van mensen. Dennett lijkt de technische ontwikkeling te zien als een voortzetting van de evolutie zoals door Darwin beschreven. Hij zet zich daarmee vooral af tegen die filosofen en theologen die geloven in een Intelligente Ontwerper die alles wat leeft van boven af heeft ontworpen en in een Geest die gemaakt is van een wonderlijk soort stof dat bewustzijn mogelijk maakt. Voor Dennett leveren de door Turing bedachte oneindige tape machine en de door Hao Wang bedachte registermachine het bewijs dat voor gedrag dat wij als zinvol (intentioneel) ervaren het niet nodig is het bestaan van een wonderlijke soort stof of een Grote Ontwerper aan te nemen. De computer is uit gewoon materiaal gemaakt en toch kan hij rekenen.    Maar betekent dit ook dat de computer of de robot zo zelfstandig is dat deze verantwoordelijk is voor “zijn eigen” gedrag?  Dat de computer kan rekenen dat wil ik nog wel geloven. Maar wat als hij een rekenfout maakt? Of is wat de computer doet altijd goed?

Er lijkt geen principiele grens te zijn aan de mogelijkheden van de producten van de informatietechnologie. Wat nu nog een fantasie is, zoals robots die een eigen taal ontwikkelen, kan morgen werkelijkheid zijn. Althans even werkelijk als de computer die rekent of de robot die een gezicht herkent en daarop reageert door bijvoorbeeld de herkende persoon te begroeten.

Om bruikbaar te zijn moet de simulatie van menselijk gedrag door een machine door de gebruiker als echt worden ervaren. De door de machine gegeneerde geluiden moeten door de gebruiker van een natuurlijke gesproken interface agent (zoals Siri van Apple) als een zinvolle vraag worden geinterpreteerd. Zo’n gesprek kan een medisch diagnostisch gesprek zijn waarin de computer medische gegevens over de gebruiker of een ander persoon verzamelt op grond waarvan de computer vervolgens een advies geeft.  Achter zo’n adviserende software-agent zit een hele kennisbank met medische gegevens. Wat is de status van deze systemen? Kunnen we de beslissing hoe te handelen overlaten aan een expertsysteem? Kunnen we wel een verantwoorde beslissing nemen of we het advies van een expertsysteem volgen of niet? Daarvoor zullen we meer moeten weten over de werking van het systeem. Maar was het er ons niet juist om te doen dat we ons als gebruiker niet druk hoeven te maken over hoe het werkt?

De praktische toepassingen van AI, robotica en machine learning hebben een grote impact op alle terreinen van het leven, van medische expertsystemen en operatierobots tot de “killer robots” op het slagveld. Het gebruik van robots en andere intelligente systemen die “zelfstandig beslissingen kunnen nemen” roept vragen op over ethische aspecten van robot-gedrag en de juridische status van dergelijke intelligente systemen.

De Committee on Legal Affairs van het Europese Parlement schrijft begin 2017 een rapport met aanbevelingen voor de Commission on Civil Law Rules on Robotics.

Het rapport constateert o.a.

that humankind stands on the threshold of an era when ever more sophisticated robots, bots, androids and other manifestations of artificial intelligence (“AI”) seem to be poised to unleash a new industrial revolution, which is likely to leave no stratum of society untouched, it is vitally important for the legislature to consider its legal and ethical implications and effects, without stifling innovation;

Het rapport roept de Commission op “to explore, analyse and consider the implications of all possible legal solutions, such as:”

(59.f): “Creating a specific legal status for robots in the long run, so that at least the most sophisticated autonomous robots could be established as having the status of electronic persons responsible for making good any damage they may cause, and possibly applying electronic personality to cases where robots make autonomous decisions or otherwise interact with third parties independently;”

In een OPEN LETTER TO THE EUROPEAN COMMISSION ARTIFICIAL INTELLIGENCE AND ROBOTICS spreken politici, AI en robot experts, ethici en juristen hun verontrusting uit over de European Parliament Resolution on Civil Law Rules of Robotics, en in het bijzonder over de aanbeveling aan de European Commission in de hierboven geciteerde paragraaf 59 f) .

Uit de open brief:

The creation of a Legal Status of an “electronic person” for “autonomous”, “unpredictable” and “self-learning” robots is justified by the incorrect affirmation that damage liability would be impossible to prove.

From a technical perspective, this statement offers many bias based on an overvaluation of the actual capabilities of even the most advanced robots, a superficial understanding of unpredictability and self-learning capacities and, a robot perception distorted by Science-Fiction and a few recent sensational press announcements.”

From an ethical and legal perspective, creating a legal personality for a robot is inappropriate whatever the legal status model

AI onderzoekers tegen de ontwikkeling van killer robots

AI experts, waaronder Max Tegmark van het Future of Life Institute en Elon Musk (Tesla, OpenAI), technologiebedrijven (waaronder Google DeepMind) en wetenschappelijke organisaties op het gebied van de AI pleiten er bij regeringen voor om niet meer delen te nemen aan de ontwikkeling van, de handel in en het gebruik van dodelijke autonome wapensystemen.

“… if you belief that the final decision to take a life should remain a human responsibility rather than falling to a machine, then please consider signing the pledge …”

Wat is er zo bijzonder aan deze autonome wapens dat AI experts hier de grens trekken als het gaat om de ontwikkeling van autonome systemen?  Het korte antwoord is: het is de complexiteit.

Wat is een autonoom wapensysteem?

Het antwoord van Paul Scharre, militair expert en voormalig policy maker in het Pentagon voor het ministerie van defensie, luidt:

” I basically define an autonomous weapon as one that can complete an entire engagement cycle on its own. That is to say, it has all of the functionality needed to search for targets, to identify them, to make a decision about whether or not to attack them, and then to start the engagement and carry through the engagement all by itself. So there’s no human in this loop, this cognitive loop, of sensing and deciding and acting out on the battlefield all by itself.”

De reden om de mens uit de loop te halen en het systeem zelf te laten beslissen of er geschoten wordt is tijd. Of liever het gebrek aan tijd: er moet onmiddellijk actie kunnen worden ondernomen zodra de killer robot een verdacht object in beeld heeft.

Volgens internationaal oorlogsrecht zijn er twee belangrijke criteria voor het beoordelen van de rechtmatigheid van een militaire operatie tijdens een conflict. De actie mag alleen gericht zijn op militaire doelen en niet op burger-doelen. Het geweld moet proportioneel zijn. Een killer robot moet dus zelfstandig kunnen beoordelen of zijn sensoren een militair doel (wapendepot, vijandelijke eenheid) in het vizier heeft en of de situatie om een aanval vraagt. Daarnaast moet het bepalen of er kans is op “collateral damage”, zoals het treffen van een schoolgebouw dat vlak naast het wapendepot is gelegen, en of de schade die het aanbrengt “proportioneel” is.

Bovenstaande omschrijving van autonome wapens door Scharre komt overeen met die van Human Rights Watch (in: Mind the Gap: The Lack of Accountability for Killer Robots, 2015):

  • Fully autonomous weapons are weapons systems that would select and engage targets without meaningful human control. They are also known as killer robots or lethal autonomous weapons systems. Because of their full autonomy, they would have no “human in the loop” to direct their use of force and thus would represent the step beyond current remote-controlled drones.”

De Nederlandse ministers Koenders en Hennis-Plasschaert  vroegen (april 2015) de CAVV wat we daaronder moeten verstaan: “betekenisvolle menselijke interventie’’.  De CAVV houdt het voor mogelijk dat er in de toekomst volledige autonome systemen komen. Dan is de mens volledig uit de loop. Maar deze systemen kunnen juridisch niet verantwoordelijkheid worden gesteld voor hun gedrag. De commissie adviseert de regering bij eventuele toekomstige aanschaf van autonome wapens “toe te zien op toepassing van het concept Moral Responsible Engineering in de ontwerpfase, gelet op het belang van de toewijzing van verantwoordelijkheid en aansprakelijkheid.’’

Er is namelijk een “accountability gap’’: niemand kan volgens de huidige wetgeving op zinvolle wijze ter verantwoording worden geroepen wanneer een killer robot een foutje maakt en een paar kinderen opoffert voor het doden van een terreurverdachte.

“Kom over 5 jaar nog maar eens terug’’, adviseert de advies commissie de ministers, want de ontwikkelingen in de AI gaan zo snel. (Autonome wapensystemen, de noodzaak van een betekenisvolle menselijke interventie, Rapport No97 AIV / No 26 CAVV, oktober 2015).

Maar voorlopig, stelt de commissie vast, zullen er mensen in de wider loop zijn (minister van defensie, legerleiding) die volgens geldende recht ter verantwoording kunnen worden geroepen voor een interventie door bewapende drones. Het zijn mensen die technologie gebruiken.

“Betekenisvolle menselijke controle moet de mogelijkheid bieden de eisen van onderscheid, proportionaliteit en voorzorg na te leven. Of aan deze eisen daadwerkelijk wordt voldaan, is afhankelijk van degenen die beslissen over inzet van een autonoom wapen.” (CAVV rapport, 2015, p.35).

Het probleem is dat we precies moeten specificeren hoe een autonoom systeem moet functioneren zodat we het zelfstandig kunnen laten werken.  In de woorden van Paul Scharre:

It was hard to translate some of these abstract concepts like, “Humans should decide the targets,” to technical ideas. Well, what does that mean for how long the weapon can loiter over a target area or how big its sensor field should be or how long it can search for? You have to try to figure out how to put those technical characteristics into practice.

AI experts zijn het erover eens dat de belangrijkste vaardigheid die vereist is om bruikbare en verantwoorde AI systemen te maken bestaat in het precies specificeren wat je wilt dat het systeem doet in alle mogelijke situaties die zich voor kunnen doen. Maar kan dat wel? Is het wel mogelijk om onze vaak vage  formuleringen van wat wij bedoelen en willen te vertalen in gedragsregels voor een computer? Het antwoord op deze vraag hangt samen met het antwoord op de vraag of kunstmatige intelligentie eigenlijk wel mogelijk is.

Hoe zit het met het verantwoordelijkheidsgevoel van technische artefacten? 

Voor Fleisschhacker is de onverantwoordelijkheid de grens van de bruikbaarheid van autonome technologie.

Het zijn de mensen die met zogenaamde autonome technologie omgaan die uiteindelijk beslissen of ze een intelligent systeem als volledig autonoom systeem willen inzetten. De beslissing de “human out of the loop” te halen wordt door de gebruiker gemaakt en valt dus onder diens verantwoordelijkheid. Wel beschouwd is het in principe helemaal niet mogelijk de mens uit de loop te halen, want ook dat is het effect van een menselijk besluit.

Het vervangen van arbeiders door robots is een stap in een proces welke is voorafgegaan door het robotiseren van de arbeid. Robotiseren van arbeid is arbeid puur zien als functioneren, als het uitvoeren van taken volgens bepaalde procedures binnen een bepaald systeem. Het is het resultaat van het minitieus analyseren van taken zoals Taylor dat in de 19de eeuw voorstelde ten bate van de verhoging van de productiviteit. De persoonlijke en sociale betekenis van de arbeid, de voldoening die de persoon ervaart bij het werk, het belang van de arbeid voor de ontwikkeling van de vermogens. Dat alles telt niet mee voor de robotisering; er wordt van geabstraheerd. De functie kan door een technisch artefact worden uitgevoerd en daar gaat het om.  In het gerobotiseerde werk is de uitvoerder, slechts uitvoerder van procedures, die precies voorschrijven hoe de taken moeten worden uitgevoerd. De enige verantwoordelijkheid die de uitvoerder heeft is het volgen van de door het technisch management ontwikkelde procedures, die in toenemende mate ondersteund worden door computersystemen.  In de zorg en in het onderwijs waar het bij uitstek moeilijk is algemene regels op te stellen voor de werknemer zonder de individuele patient of leerling geweld aan te doen wordt robotisering als contra-produktief ervaren.  Mensen hebben geen zin meer in het werk. Het werk wordt als zwaar ervaren omdat men er geen voldoening meer in heeft, omdat men als werknemer niet gezien wordt als volwaardige persoon met een eigen verantwoordelijkheid voor de manier waarop het werk inhoud wordt gegeven.

Louk Fleischhacker,  Arbeid en (kunstmatige) intelligentie. In: Arbeid adelt niet. (Pieter Tijmes, red.). Kok Agora, Kampen, 1989.

Oscar Schwartz, The discourse is unhinged’: how the media gets AI alarmingly wrong, The Guardian, 25-07-2018