Over de onbegrijpelijkheid van het feit en waarom informatie niet bestaat

Informatie bestaat niet

Er zijn twee redenen waarom deze uitspraak iets zegt. De eerste reden is dat het ook niet waar kan zijn en daarmee bedoel ik dat informatie wel bestaat. De tweede reden waarom deze uitspraak iets zegt is dat er mensen zijn die beweerd hebben dat informatie bestaat, het tegendeel van wat ik hier wil verantwoorden.

Ik zeg dit vanwege het volgende.

Het is volgens de informatie-theorie gebruikelijk te zeggen dat de hoeveelheid informatie die een bericht bevat bepaald wordt tegen de achtergrond van het aantal mogelijke alternatieven. Zo berekenen we de gewenste capaciteit van het communicatiekanaal dat aan een zekere snelheid moet voldoen op basis van het aantal mogelijke berichten dat de gebruikers ervan over het kanaal willen versturen.

Shannon was als communicatie-ingenieur evenmin geïnteresseerd in de inhoud van de berichten als de statistici van het RIVM zijn in de uitslag van mijn PCR-test. Ik haal dat erbij omdat ik (en niet alleen ik) als individu die zo’n test-uitslag krijgt met daarbij de disclaimer dat een test nooit helemaal 100% betrouwbaar is en dat ook bij een negatieve uitslag er geen garantie is dat ik niet besmet ben met het corona virus ook niet weet wat ik aan zo’n statistiek heb. De vraag die zich dan immers voor doet is: wat betekent zo’n statistische uitspraak voor mij, als een feitelijk een unicum, met een bepaalde lengte en een bepaald gewicht, en andere bepaalde relevante fysische constantes (BMI, genetische code, etc); constantes die allen met zekerheid afwijken van ‘de gemiddelden’ die de statistici voor “de Nederlanders”, waartoe ik behoor, hebben berekend. Gemiddeldes bestaan niet, net zo min als de Nederlander. Ik wel.

Tot welke klasse ik mij, met hulp van vele medisch relevante gegevens, ook indeel, ik zal daarmee nooit dat unieke gegeven kunnen beschrijven dat ik ben. Zoals de Groningse statisticus Willem Schaafsma mij eens toevertrouwde: Reichenbach’s probleem van de referentieklasse is niet oplosbaar.

Google weet dat hoeveel gegevens ze ook over u verzamelen en hoe intelligent hun machine learning algoritmes ook zijn ze u als uniek individu nooit zullen beschrijven. Google weet niet wie u bent. Google kent u niet. De Belastingdienst ook niet; ook al noemt ze u ‘fraudeur’.

Informatie bestaat niet.

Dat ik deze uitspraak doe daarvoor heb ik een reden en een bedoeling. De reden is dat het waar is wat ik zeg en het doel is dat ik het van belang vind dit op te merken. En dat heeft te maken met de bovengenoemde twee redenen waarom deze uitspraak ook iets zegt: het niet waar kunnen zijn en er zijn er die anders beweren, zoals o.a. Luciano Floridi, primus inter pares onder de informatie-filosofen.

De reden is de oorzaak en de waarheid van het oordeel.

Voor u als lezer of ontvanger van het bericht is de uitspraak “Informatie bestaat niet” iets anders dan voor mij. Het is belangrijk dat we ons dat realiseren! U kijkt daar namelijk anders tegen aan. Laat ik zeggen van buiten af. Voor de ontvanger geldt dat een mogelijkheid is wat voor mij een noodzakelijk feit is. Het doel van communicatie is dat beide kanten overeenstemming hebben over de noodzakelijkheid. Dat doel motiveert de communicatie, het is er de motor van. Het bestaat slechts als vermogen, niet feitelijk. Dit geldt ook voor het observeren van de werkelijkheid: wat voor deze noodzakelijk feit is, is voor u een mogelijkheid. Het komt erop aan de noodzakelijkheid in te zien. Niet om het feit weg te verklaren als teken van iets anders. Het gegeven feit is zichzelf voldoende grond.

Elke feitelijk gebeuren heeft deze twee kanten. Enerzijds is het een onmiddellijk noodzakelijk gegeven, anderzijds is het iets dat tegen de achtergrond van alternatieve mogelijkheden bekeken kan worden. Dan is het gegeven iets “dat zich nog bewijzen moet”. We zeggen dan: “Laten we maar eens zien of dit werkelijk waar is”. “Wat heeft dit te betekenen?”

Wanneer ik zeg dat Informatie niet bestaat dan beweer ik dat informatie dit proces is, een gebeuren dat bemiddelt tussen de waarheid en noodzakelijkheid van het bericht voor de spreker/zender en het bericht als mogelijkheid tegen een achtergrond van de kennis van de luisteraar/ontvanger. Deze kennis is grotendeels impliciet, iets dat we geloven of aangenomen hebben zo te zijn. Een nieuw bericht kan dat tegen (lijken te) spreken. Zoals bijvoorbeeld het bericht dat informatie niet bestaat uw geloof dat informatie wel degelijk bestaat in de verkeerde war kan schoppen. (Merk op dat dit volgens de wet van Bayes niet kan. Exit reverend Thomas Bayes !)

Over de onbegrijpelijkheid van het feitelijke gaat het volgende.

Obama, het alarm, en het fietsslot

Iemand vroeg zich eens af hoe het toch komt dat de batterij van het brandalarmapparaat altijd midden in de nacht op is (het ding maakt dan een hels lawaai). Ik had een soortgelijke vraag: waarom zit er altijd net een spaak in de weg als ik mijn fiets op slot wil zetten? De Nederlandse cabaretier Erik van Muiswinkel merkte in een show eens op dat hij precies op dezelfde dag geboren is als de president van Amerika Barack Obama (die was toen president). De cabaretier merkte daarover het volgende op: “Als dit geen toeval is, dan is het wel heel toevallig”. Wat is hier aan de hand?

Bias. De verklaring van deze toevalligheden die geen toeval zijn is bias. Het wordt namelijk opgemerkt omdat het opmerkelijk is. Het is niet aan de orde om het verschijnsel tegen de achtergrond van alternatieven te bekijken omdat het om feiten gaat die door het achterliggende mechanisme al uitgefilterd zijn. Wanneer ik zoek naar iemand die op mijn geboortedag 10 januari geboren is vind ik Donald Knuth, wel de ‘vader van de informatica’ genoemd. Wanneer is dat toeval? Wat is dan het toevallige?

Toeval bestaat niet, zoals Bruno De Finetti al zei. Net zo min als informatie bestaat.

Over het verschil tussen een gevangene en een deur

Wat is verschil tussen het probleem van de drie gevangenen en het probleem van de drie deuren?

Bij het eerste probleem is de vraag of de kans dat gevangene A wordt vrijgelaten verandert nadat deze weet of het B of C is die wordt vrijgelaten. Was deze kans eerst 1/3. De vraag is wordt deze 1/2 of blijft deze gelijk?

Bij het drie deuren probleem is de vraag nadat de deelnemer A had gekozen en de quizzmaster een deur heeft geopend die niet A is en waar geen auto achter zit of de deelnemer er beter aan doet van keus te veranderen of dat hij A blijft kiezen?

Volgens de meeste geleerden is het antwoord bij de gevangen dat de nieuwe informatie geen verschil maakt voor de kansen van gevangene A. Deze blijft 1/3; er is niets verandert. Maar de deelnemer aan de quiz kan beter de andere deur nemen want de informatie die de geopende deur hem biedt veranderen de kans dat A de deur is met de auto.

Wat is het verschil dat dit verschil verklaart?

Kans of feit?

Er is een onoverbrugbare kloof tussen uitspraken over een veelheid en uitspraken over de individuen die deze veelheid uitmaken. De bewering dat de gemiddelde lengte van “de Nederlander” 1.75 m is” is het resultaat van een schattingsproces waarbij de gemiddeldes van groepen van Nederlanders berekend zijn. Het gaat hier om het zo goed mogelijk bepalen van de kans dat een bepaalde ‘fysische’ constante in een zeker waardebereik ligt. De kans kan benaderd worden als soort van limiet van een rij gemiddelden. Wat herhaald kan worden is het selecteren van een deelgroep, waarvan we aannemen dat deze representatief is voor “de Nederlanders”.

Bij het bepalen van de kans dat we met een dobbelsteen een 6 gooien is het experiment het werpen met de dobbelsteen “onder gelijke omstandigheden”.

In beide gevallen speelt impliciete kennis (‘inzicht’) in wat als ‘gelijke gevallen’ beschouwd kan worden een rol.

Altijd speelt impliciete kennis een rol van betekenis bij het bepalen van de informatie-inhoud van een gegeven of bericht.

Informatie bestaat niet, noch als iets fysisch, noch als iets mathematisch; het is iets dat slechts in het intersubjectieve verkeer bepaald wordt.

Marion Koopmans en de Bar-Hillel-Carnap Paradox van Luciano Floridi

“The more we know, the less we know” (Marion Koopmans, Twitter, 8-4-2021)

Wat zegt ze daar? “The more we know, the less we know”? Wat is dat voor logica! Dat moet wel een vrouw zijn. Het is in een tweet van onze nationale huiskamer-viroloog en corona virus vraagbaak Marion Koopmans. Een wijze vrouw.

(Mijn zoons wijzen mij er regelmatig op: “Grijze haren zijn geen teken van wijsheid, maar van ouderdom.” Marion Koopmans is het levende bewijs dat grijsheid de wijsheid ook niet uitsluit.)

Wat volgt is een voetnoot bij de uitspraak dat door nieuwe informatie onze kennis soms vermindert.

Mijn docent Dirk Kleima wees ons er al op tijdens het college Informatietheorie, waarin hij o.a. Shannon and Weavers klassieker “The Mathematical Theory of Communication” en het Maxwell duiveltje behandelde, om aan te tonen dat informatie uitwisselen energie kost. Hoe dan?

De kerngedachte is dit: nieuwe informatie vermeerdert de kennis omtrent een bepaald gebied van de werkelijkheid. Daardoor verandert ons inzicht in wat mogelijk is en wat niet. Maar ook wat meer en wat minder waarschijnlijk is. Onze voorspellingen omtrent de werkelijkheid veranderen.

De verwachtingen en mogelijkheden worden wiskundig uitgedrukt in een kans-verdeling. Wetenschappers, virologen, etc, maken zulke kans-modellen.

Zo’n kans-model heeft een entropie. Dat is een maat voor wanorde, chaos. Kennis schept orde in de chaos van de ruwe natuur. Gisteren viel bij ons een meer dan 80 jaar oude dikke wilg om. Dan heb je chaos in je tuin.

Dat kans-model, uitdrukking van onze kennis op een bepaald moment, geef ik aan met P(K) waarbij K de (impliciete) kennis van het domein is en P staat voor een probability, een kansfunctie. Bij iedere mogelijkheid die zich voordoet (denk aan uitkomsten van een test of worp met dobbelsteen) geeft de functie P(K) een waarde, zeg P(K)(x) van mogelijkheid (event) x.

Die kansverdeling heeft een entropie-waarde die je met een logaritmische functie berekent. Doet er hier niet toe hoe dat gaat, maar het is een getal dat aangeeft hoeveel bits je gemiddeld minimaal nodig hebt om het bericht dat een bepaalde mogelijkheid zich voor doet door het kanaal van Shannon te sturen. Als alles even kansrijk is, is de chaos maximaal: je weet dan weinig of niets, je kunt alles verwachten.

Je zou dus verwachten dat nieuwe kennis minder chaos en dus een lagere entropie oplevert. Immers je weet meer.

Nee, zegt Marion: “The more we know, the less we know“. Hoe meer informatie des te minder weten we. Inderdaad Dirk Kleima (“bewijstechniek is net zo belangrijk als soldeertechniek“) gaf een bewijs van zijn bewering dat informatie de entropie van je kansverdeling kan vermeerderen.

Na nieuwe informatie E (evidence) wordt de nieuwe kansverdeling P(K) (x|E), spreek uit: de kans op event x gegeven de informatie E. Die kansverdeling kan behoorlijk verschillen van de oude. Eenvoudig voorbeeld: eerst was de kans op een 6 bij het gooien met een eerlijke dobbelsteen 1/6. Maar als je informatie krijgt dat de uitkomst even is, dan is de kans op een 6 al 1/3.

In dit voorbeeld is de entropie al niet eens verandert. Maar docent Kleima gaf dus een voorbeeld waarin de chaos/entropie toenam. Binnen een bepaalde deelgroep van Nederlanders, bijvoorbeeld die met blauwe ogen, kan de verdeling van haarkleur best uniformer zijn dan in de hele bevolking van Nederland. Met als gevolg dat informatie dat iemand tot die deelgroep behoort (blauwe ogen heeft) je minder zeker maakt over de haarkleur van die persoon. De entropie is toegenomen.

Ik heb altijd vermoed: hier wringt een schoen. Dat vond Luciano Floridi ook toen hij vernam hoe Bar-Hillel en Carnap kansen aan kennis en belief-updates koppelden. Hij noemt dit fenomeen de Bar-Hillel-Carnap paradox. Deze zou voortkomen uit de Inverse Probability These: hoe kleiner de kans op een event is, des te meer informatie geeft het je wanneer deze event optreedt. En hij meende dat dit betekent dat als je een uitspraak hebt die nooit waar kan zijn (“het regent en het regent niet”), dat deze dan maximale informatie-oplevert. Deze stap is voor Floridi’s rekening. Maar ook anderen maken die.

De oorzaak van de ‘paradox’ is echter een verwarring van twee betekenissen van ‘mogelijk zijn’. Eenvoudig voorbeeld: we zeggen dat een licht-schakelaar twee mogelijke standen heeft (aan / uit) of dat een bewering twee mogelijke waarheidswaarden heeft (true/false, ook wel: 1 of 0). Dat is de ene betekenis van mogelijk zijn. De andere is deze: als een schakelaar in stand ‘aan’ staat dan is dit kennelijk de enig mogelijke stand; de andere stand is niet mogelijk. Dat is zeg maar fysische of werkelijke mogelijkheid.

Als er iets, een event, gebeurt dan wordt iets dat (kennelijk) mogelijk was ook werkelijk. Daarmee zijn alle andere mogelijke events van het wiskundige kansmodel opgeheven. Die zijn niet meer mogelijk. Dat lijkt mij klontjes.
Maar zo denkt de wiskundig aangelegde wetenschapper (en iedere ‘moderne’ wetenschapper heeft een tik van de wiskunde gehad) niet. Die denken niet aan mogelijkheden die werkelijk worden. Worden bestaat niet in de wiskunde.

De wiskundige en de wetenschapper die de wiskundige modellering voor de ideale kennisvorm houdt, berekent na event E gezien te hebben vrolijk P(K)(x|E), de nieuwe kansverdeling van x gegeven E op basis van zijn kansmodel P(K) dat hij ooit gemaakt had vanwege zijn (impliciete) kennis K van het domein.

Hoe logisch is dat? Waarom houdt de wiskundige vast aan zijn oude model? Waarom zegt de wetenschapper niet: ik moet mijn oude model P(K) aanpassen, want ik heb nu informatie I over event E. Die I(E) levert mij nieuwe kennis K: dat wordt K+(I(E) . Dit is een nieuwe kansverdeling P(K+I(E)(x).

In plaats van wat men standaard doet: P(K)(x|E).

Omdat de wetenschapper denkt: informatie is nog geen kennis. Die kennis is meer iets subjectiefs en impliciet. We moeten die nieuwe informatie eerst wegen. (Kijk maar wat de wetenschap voortdurende doet met de Lareb-gegevens van Astrid Kant en andere labs).

Voor Luciano Floridi is de Bar-Hillel-Carnap paradox – ofwel in de woorden van Marion Koopmans: het “The more we know, the less we know” reden om te zeggen; informatie is pas betekenisvolle informatie als het waar is. En daarmee zegt hij eigenlijk: wat jullie nieuwe informatie noemen is pas echte informatie als blijkt waar te zijn wat er gezegd wordt. Helaas weet ook Floridi niet te zeggen wanneer dat is, want dat is een onbereikbaar ideaal.

Alsof onze kennis groeit totdat er niets meer te weten over blijft.

De werkelijkheid zegt niet als een bepaalde event E optreedt dat E mogelijk is, de werkelijkheid toont dat E het geval is. De wiskunde kent echter alleen mogelijkheden en kan niet en het werkelijk worden van iets of de groei van kennis als zodanig modelleren. Alles wat de wiskunde voor waar houdt volgt uit de axioma’s die een keer aangenomen zijn. Feiten zijn niet inhoudelijk onderscheiden van de andere mogelijkheden uit het ‘veld van mogelijkheden’ uit het wiskundig kansmodel.

De praktijk is echter dat we voortdurend nieuwe informatie krijgen waarvan we nog maar moeten afwachten of en wat voor nieuwe kennis het oplevert. Informatie is toetsbaar en dus slechts potentieel waar. We moeten die nog verwerken. Dat gebeurt in een confrontatie met alle reeds voor waar aangenomen informatie en met informatie die we bewaarden maar waar we nog niets mee wisten te doen. De waarheid is het doel van de dialoog tussen de waarheid zoekende wetenschappers.

Naar een unificerende theorie van informatie

De scepsis dat een werkelijk begrip van informatie niet voor de mens is weggelegd, zoals onder andere door Floridi en Mingers uitgesproken, berust op de verwarring van de twee betekenissen van mogelijk die het wiskundige begrip van mogelijkheid uit de kansrekening en statistiek aankleven. Informatie is een begrip dat tot de intersubjectiviteit behoort, niet tot de wiskunde of de fysica.

We zien de verwarring van “denken in het model” met “denken over het model” voortdurend optreden wanneer mensen het hebben over intelligente machines. Alsof de mens zelf als maker van de machine (het model) in de machine zit.

Laten we hopen dat Marion’s wijze tweet: “The less we know the more we know” zo aanleiding is niet alleen de idee van “groei van kennis” maar ook de geschiedenis van de moderne wetenschap te heroverdenken.

Daar is nu de gelegenheid en de tijd voor. Nu de machines het werk doen en het virus ons thuis houdt.

Ik sluit af met een citaat uit Frank Ramsey’s Truth and Probability.

The degree of belief in p given q is not the same as the degree to which a subject would believe p, if he believed q for certain; for knowledge of q might for psychological reasons profoundly alter his whole system of beliefs.

How right he was!

Good goan!

Over Feedback en de Rol van de Ander

In de serie Denken in Tijden van Corona deze keer een briefje aan Kim de Jong

Beste Kim,

Wat een interessant en leerzaam artikel! Het geeft een verrassend overzicht over het onderzoek naar de effecten van positieve feedback als onderdeel van behandelingen in de psychologische klinische praktijk. Ik ga echt niet in op de statistieken want dat vind ik het saaiste wat er is. Ik neem aan dat reviewers van het artikel daar goed naar gekeken hebben. Nee, ik heb een paar andersoortige opmerkingen en vragen die bij het lezen van je artikel bij me opkwamen. Ik heb ongeveer vanaf 1952 met feedback te maken gehad en er ook wel wat over gelezen, maar ik leer er steeds nog weer wat bij.

De eerste vraag is: wat is de rol van de ander? In deze tijden van Corona hoor je dat meer mensen eenzaam zijn omdat ze alleen zijn. Praten mensen die alleen zijn meer met en tegen zichzelf? Kijken ze meer in de spiegel? Van wie krijgen ze feedback?

Ik zie de ander toch als het (ge)weten van je zelf. De ander maakt je bewust zijn. Ik bedoel dat (het besef van) de aanwezigheid van de ander (ook al zegt ie niks) maakt dat je je bewust bent van je eigen aanwezigheid en van wat je doet.

Ik denk dat dat de meest primitieve vorm is van feedback.

Er is immers iets wezenlijks aan de hand wanneer je iemand iets ziet doen. Dat doen wordt opgemerkt en eventueel benoemt als een activiteit waardoor het voor de toeschouwer al niet meer is wat het op zich voor de ander was, namelijk gewoon een bezigheid. Het oog van de ander maakt dus de bezigheid tot een benoemde daad. De volgende stap is dan dat je denkt dat de ander het daar om te doen is, terwijl deze misschien gewoon maar wat deed.

Je artikel verrast me omdat ik me niet kon voorstellen dat er klinische praktijken zijn waarin er geen feedback gegeven wordt. De therapeut doet toch niet zomaar wat. Mag je hopen. Maar misschien haal ik de verschillende impliciete en expliciete vormen van feedback wel door elkaar. Daarmee bedoel ik dit.

Als ik op een toets druk (bij het tikken van deze brief aan jou) dan krijg ik ‘feedback’ van de toets. Dat noem ik zo sinds ik van Norbert Wiener heb gehoord dat dat zo heet. Newton zou zeggen actie = min reactie, wat ik nog op school leerde. Dit is een vorm van feedback. Een meer expliciet vorm is als mijn computer zegt “Wilt u een shortcut definiëren?” (omdat ik kennelijk een bepaalde combinatie van toetsen vaak gebruik). Ik denk dan: verrek ik gebruik kennelijk een bepaalde combinatie van toetsen heel vaak. Wist ik niet. Dat is ook feedback.

Sinds Wiener’s Cybernetica zien we overal feedback in. Verpleegkundigen leerden de zelfzorgmethode van Orem. Dat is een systeemtheorie voor verpleegkundigen waarin feedback ook een belangrijke rol speelt. Ik heb wel onderzoek gedaan naar feedback in coaching systemen op mobieltjes voor jeugdige diabetes patiënten en voor wetenschappers om ze achter het beeldscherm weg te krijgen en meer te bewegen.

Positieve feedback is één van de standaard gereedschappen uit de kist van de makers van Behaviour Change Support Systemen. Jouw artikel gaat daar niet specifiek over. Het leek me meer over het ‘ouderwetse’ (geen pejoratief) handwerk te gaan.

Waarom is de ander zo belangrijk bij feedback? Je ziet toch zelf als therapeut wat je doet aan het effect van je handelen? Dat effect, het gevolg van de behandeling, is toch de feedback. Of vergis ik me? Misschien denk ik te technisch en autistisch, maar die stoommachine met de Watt-regulateur had toch ook geen ander nodig om zichzelf te blijven in zijn interactie met de omgeving en om niet te exploderen.

Of misschien is daar toch de mens als ander van de machine nodig om de zaak in de hand te houden?

Bij het lezen van je artikel realiseerde ik me weer hoe zeer feedback en de cybernetische (zich zelf controlerende) machine te maken heeft met en gebaseerd is op de psychologie van het ontwikkelen van het zelfbewustzijn. En daarmee van de rol van de wetenschap in interactie met de praktijk. Veel mensen beseffen zich niet hoe belangrijk feedback is voor bewustzijn.

De rol van de ander voor en als je (ge)weten van jezelf, dat is toch waar het in de moraliteit van ons leven om gaat. Lijkt me.

Ik snap nu ook dat die cybernetische machine van Wiener (wij zeggen tegenwoordig computer, avatar of robot) door sommige filosofen als de uitwendige objectivatie van het zelfbewustzijn van de moderne autonome mens gezien wordt.

De regulateur van Watt, een feedback systeem

De robot, de kunstmatige intelligentie, de mobiele coaching systemen, houden ons een spiegel voor en geven ons daarmee feedback.

Het is wel begrijpelijk dat Jan Hollak in de cybernetische techniek van de programmeerbare machine de realisatie zag van de Hegelse filosofie van de zelfbewuste geest.

Ik had mij zelf belooft het niet te lang te maken.

Tot slot nog een vraag: wat is de feedback rol van je artikel en in welke systeem?

Nogmaals heel veel dank voor je inspirerende artikel. En nog veel succes met je onderzoek.

Rieks

Het artikel van Kim:

Kim de Jong et al. (2021). Using progress feedback to improve outcomes and reduce drop-out, treatment duration, and deterioration: A multilevel meta-analysis, Clinical Psychology Review. https://doi.org/10.1016/j.cpr.2021.102002

Definitie van waar het over gaat:

Progress Feedback (sometimes called “client feedback”) refers to the continuous monitoring of client perceptions of benefit throughout therapy and a real-time comparison with an expected treatment response to gauge client progress and signal when change is not occurring as predicted. With this alert, clinicians and clients have an opportunity to shift focus, revisit goals, or alter interventions before deterioration or dropout.” (Barry Duncan, The Partners for Change Outcome Management System.)

Wat heb ik nou aan kansen? – over een verwarring in de wetenschap

He thought he saw an Argument that proved he was the Pope: He looked again and found it was a Bar of Mottled Soap. “A fact so dread” he faintly said, “extinguishes all hope.”(Lewis Carroll, Alice in Wonderland)

De hand die zichzelf tekent, heeft zichzelf niet getekend.” (Louk Fleischhacker, verwijzend naar M.C. Escher’s “de hand die zichzelf tekent”)

Het praktische probleem

Het RIVM, of de Minister namens het RIVM, zegt over de Corona zelftest dat je niet helemaal kunt vertrouwen op de uitkomst van de test. Bij een positieve testuitslag moet je alsnog naar de GGD voor een ‘echte’ test. Bij een negatieve uitslag, zo zegt de Minister, “is de kans dat je toch besmet bent nog 20%”.

Wat moet je hiermee? En dan bedoel ik: wat moet ‘ik’ of ‘jij’ hiermee? Volgens een interpretatie van kans (kans is relative frequentie) zou één op de vijf keer dat ik een negatieve testuitslag heb de test er naast zitten en ben ik toch besmet. Maar welke keer? Daar zit ik mooi mee. Want ik heb maar één kans. Ik moet immers nu beslissen wat ik er mee moet. Met zo’n kans-uitspraak stuurt de Minister en de Wetenschap (Statistiek) ons toch mooi met een kluitje in het riet!

En als ik me nou niet had getest was dan ook de kans dat ik besmet was 20% ? Of is dat fout redeneren? Het aantal besmettelijke mensen is in Nederland een kleine 200.000 (Het Corona dashboard: 161.000). Dat is lang niet 1 op de 5. Wat is hier mis? Die 20 % false negatives wil zeggen dat van de 100 mensen getest worden en die wel besmet zijn de test 20 keer zegt dat ze niet besmet zijn. Dat is dus heel wat anders.

De vraag is wat ik moet geloven als ik een negatieve testuitslag krijg waarvan ik weet dat deze niet 100% betrouwbaar is? Het antwoord hangt globaal af van het antwoord op twee vragen. De eerste is: hoe overtuigd ben ik ervan dat ik besmet ben (zonder de testuitslag mee te nemen)? De tweede is: hoe betrouwbaar vind ik de informatie die de testuitslag mij geeft? Kunnen we hiermee de mate van geloof die ik heb dat ik besmet ben of niet berekenen?

Een andere kwestie is of de uitslag van de test niet wat specifieker gegeven kan worden zodat deze meer op mijn geval toegesneden is?

Wat betekent een kans voor een individu?

Aristoteles stelde al in zijn Ethica Nicomachea dat de wetenschapper geen uitspraken doet over individuele personen. De medische wetenschap, stelt hij, zegt niets over Socrates. Het gaat over bepaalde ziektes en symptomen, over abstracte categorieën. De huisarts onderzoekt individuele patiënten. Hij kan op grond van bepaalde symptomen misschien zeggen welke kwaal een patiënt die bij hem komt heeft (is het alleen de leeftijd, of zijn het de genen, een virus, slijtage of is het verbeelding?). De medicus heeft met individuele personen te maken. De wetenschapper heeft met de mens en zijn ziektes in het algemeen te maken. Samen met de technicus ontwikkelt deze instrumenten om te meten en instrumenten en medicijnen om eventueel in te grijpen. Die instrumenten werken in principe voor iedereen, omdat ze gebaseerd zijn op algemene eigenschappen waaraan een patiënt voldoet. Daar zit ook een economisch en ecologisch motief: het instrument moet herhaaldelijk toepasbaar zijn. Als het om grote aantallen gaat, om veel mensen, om veel herhaalde toepassingen, dan kun je aan statistiek doen: gemiddelden en variaties berekenen. Dat is nodig omdat niet iedereen hetzelfde is, en omdat er meetfouten gemaakt worden.

Die statistieken zijn leuk voor de wetenschap, de verzekeringsmaatschappijen en voor overheden maar niet voor de individuele burger zoals ik. Om mij te dienen proberen Google en de Belastingdienst mij op grond van een aantal eigenschappen (leeftijd, geslacht, postcode, wat ik gekocht heb) in een bepaalde klasse in te delen. Maar dat gaat soms heel erg fout weten we uit ervaring. Ook de behandelend arts zit er wel eens naast. Omdat ik nou net niet voldeed aan wat ‘normaal’ wordt gevonden.

Kan het niet anders? Kan de wetenschap niet op een andere manier met onzekerheid rekenen dat ik, als individuele burger er in de praktijk ook wat aan heb? Zo’n alternatief lijkt er te zijn.

Hoe bruin wilt u het hebben?

Stel u gaat naar de bakker voor een brood. Stel u houdt niet van wit brood. U wilt een bruin brood. Maar wat is ‘bruin’? Helaas zijn er veel broden die noch echt wit, noch echt bruin zijn. Deze zijn in zekere mate ‘bruin’. U komt bij de bakker en daar staat u voor de keuze. Er staan twee manden met broden. In de ene mand, ik noem hem de kansmand, zitten witte en echt bruine broden, van elke soort evenveel. In de andere mand, ik noem deze de ‘vage mand’, zitten allemaal dezelfde soort broden, die in de mate 0.5 bruin zijn (dat is precies tussen wit en echt bruin in. Een echt bruin brood is bruin in de mate 1, een wit brood is bruin in mate 0). We gaan er vanuit dat u weet wat de bakker onder een bruinig brood 0.5 verstaat. Uit welke mand neemt u een brood? U mag niet in de kansmand kijken.

Neemt u een brood uit de kansmand dan loopt u het risico een wit brood aan te treffen. Maar u kunt ook een bruin brood te pakken hebben. Neemt u een brood uit de vage mand dan bent u er zeker van een brood te hebben, maar dat is slechts bruinig 0.5.

Is het echt een verbetering om met vage maten te werken dan met kansuitspraken? Had de Corona zelftest niet beter kunnen zeggen: “U bent 0.2 besmettelijk” in plaats van: “U bent positief getest maar er is een kans van 20 % dat dit fout is”. Of maakt het niet uit? Laten we even onder de hoed van de zelftest kijken.

Onder de hoed van de Corona test

Testen zijn nooit 100% betrouwbaar. Je zou zeggen je bent zwanger of je bent het niet, maar ook een zwangerschapstest, die meestal in een vroeg stadium van een vermoedelijke zwangerschap afgenomen wordt, kent valse positieven en valse negatieven. Deze testen meten de aanwezigheid van een speciaal hormoon dat alleen aanwezig is als er sprake is van zwangerschap. Maar ‘echt zwanger zijn’ is iets anders dan de aanwezigheid van dat hormoon. De aanwezigheid van het hormoon kan ook op iets anders duiden. Vandaar dat er in zeldzame gevallen foute uitslagen zijn. Sommige zelftest geven zelfs een indicatie hoe zeker de meting is. Maar je kunt niet een beetje zwanger zijn. Zo’n indicatie is wel specifiek op de persoon gericht bij wie de test is afgenomen. Kan dat bij de Corona test ook niet?

Op grond waarvan geeft de Corona (zelf)test een negatieve of positieve uitslag?

De PCR-test (polymerase chain reaction-test) toont de aanwezigheid van een stukje genetisch materiaal van het coronavirus SARS-2 aan in neus- en keelslijm. Het is de meest gebruikte en tot nu toe meest betrouwbare test voor het virus. De PCR-test wordt daarom als ‘gouden standaard’ gebruikt om andere testen mee te testen op hun betrouwbaarheid (Bron: RIVM ). Zoals je een standaard-meter (of modernere standaard lengtemaat) gebruikt om een meetlat mee te ijken.

Bij een virus test wordt een aantal virus-deeltjes in het ‘materiaal’ uit uw neus of keel geteld. Maar hoeveel mogen dat er zijn opdat nog een negatieve uitslag wordt vastgesteld? Is één virus-deeltje al reden voor een positieve uitkomst? De wetenschap legt ergens een grenswaarde x vast: is het aantal deeltjes kleiner dan x dan is de test negatief. Bij het bepalen van de grenswaarde spelen verschillende overwegingen een rol. Bijvoorbeeld wat zijn de kosten van een verkeerde negatieve uitslag. En wat zijn de kosten van een verkeerde positieve uitslag? Maar in de eerste plaats hangt deze grenswaarde af van de ervaring met het verloop van het virus. De grenswaarde is dus resultaat van een leerproces en wordt dus op grond van nieuwe gegevens eventueel aangepast.

Bij de ‘standaard’ PCR-test van de GGD wordt gekeken hoe vaak het gekweekte materiaal verdubbeld moet worden voordat besloten kan worden dat er een voldoende hoeveelheid erfelijk virus-materiaal in het materiaal aanwezig is, de Cycle-treshold-waarde. Bij een hoge Ct-waarde waren er minder virusdeeltjes in het monster aanwezig, waardoor er veel cycli nodig waren om het virus aan te tonen. 

“Aan het begin van de COVID-19 epidemie heeft het RIVM geadviseerd om bij monsters met een Ct-waarde groter dan 30 nauwkeurig te kijken naar het PCR-resultaat. Inmiddels hebben we meer ervaring met de PCR-test voor SARS-CoV-2 en weten we dat de resultaten onder een Ct-waarde van 35 volledig betrouwbaar zijn. Het is dus pas nuttig om bij Ct-waarden van 35 of meer extra nauwkeurig te kijken of er ook een goede S-curve te zien is. Het verschuiven van de waarschuwingswaarde van Ct 30 naar Ct 35 levert niet meer positieve resultaten op, maar scheelt laboranten wel veel tijd.” (Bron: RIVM).

Ook bij deze wijze van meten moet dus altijd ergens een grenswaarde worden gekozen waar er sprake is van een positieve test-uitslag.

De antigeentest toont bepaalde eiwitten van het virus aan in neus- en/of keelslijm. Zo weet je snel of je nu het virus bij je draagt. Er wordt niet gekweekt. De test geeft sneller uitslag dan de PCR test, maar is wel minder gevoelig. Dat is de oorzaak van de vrij hoge waarde van valse negatieven in vergelijking met de PCR-test.

Zo’n test meet dus aanwezigheid van virus-materiaal in het slijm op het moment van de test. Het is, net als de zwangerschapstest, een moment-opname. Omdat de toestand van het lichaam voortdurend verandert kan het zijn dat het materiaal dat afgenomen is bij de test oud is, of nog te weinig virus-deeltjes bevat, omdat de besmetting juist heel recent heeft plaatsgevonden. Dat kan dus tot ‘foute’ uitslagen leiden. Als je twee metingen verricht met een kleine tijd er tussen dan is er altijd een kans op twee verschillende uitslagen. Een andere oorzaak voor een foute testuitslag is een meetfout: er is bijvoorbeeld niet goed met het wattenstaafje gewerkt. Of de testlocatie heeft een administratieve fout gemaakt: de labmedewerker was misschien wel oververmoeid.

In feite hebben we hier ook te maken met vaagheid. besmet zijn is een vage term. De oude Grieken worstelden al met dit soort problemen. Hoeveel graankorrels vormen nog een hoop? Drie? Twintig? Honderd? Als je meet wil je iets kwalitatiefs op een kwantitatieve manier, door middel van een getal of met een andere wiskundige structurele grootheid, vastleggen. En dat is lastig omdat de werkelijkheid niet altijd meetbaar is.

Kunnen we nu niet beter in plaats van te zeggen: de test is negatief (maar let wel in 20% van de gevallen zitten we er naast) een meer op de individuele persoon gerichte uitspraak doen en zeggen: uw score is 2 (op een schaal van 0 tot 10)?

Dat is lastig omdat er zoveel verschillende oorzaken zijn van de statistische fout. Als het alleen een kwestie was van het aantal Ct-cycles dat nodig was om de besmetting waar te nemen dan zou je in plaats van de uitslag is positief of negatief de Ct-waarde kunnen rapporteren. Maar dat is dus niet de enige onderliggende factor die telt bij het bepalen van de foutmarge.

Bij een foute negatieve testuitslag is de test negatief omdat er misschien nog te weinig virus-materiaal in het slijm op het wattenstaafje zat, terwijl je wel besmet bent. Dat je wel besmet bent weet je dus op grond van andere metingen. Bijvoorbeeld: door de redenering dat als je twee dagen later de ziekte blijkt te hebben dan was je daarvoor waarschijnlijk al besmet. Als je bij een groep mensen die een aantal specifieke COVID-19 symptomen hebben (slechte reuk, keelpijn, hoofdpijn, kortademig) de test afneemt dan is het percentage foute negatieve uitslagen hoger dan bij gezonde mensen.

Om te bepalen of ondanks de negatieve testuitslag iemand toch besmet is en de ziekte heeft moet je dus meer en andere metingen doen. Heeft de persoon andere symptomen die op de ziekte wijzen? De test meet alleen de aanwezigheid van virusdeeltje maar de testpersoon kan nog ander zaken meten.

Als ik suikerziekte heb of ‘te zwaar’ ben en ik weet dat mensen die deze eigenschappen hebben een grotere kan hebben ziek te worden nadat ze besmet zijn dan zal ik meer zekerheid willen hebben dan de ene zelftest mij biedt. Maar dat bepaalt niet hoe groot de kans is dat ik besmet ben. Die wordt bijvoorbeeld bepaald door dat mensen in mijn omgeving de ziekte hebben. Of door het feit dat ik andere symptomen van de ziekte heb. Die te samen bepalen mijn a priori geloof dat ik besmet ben, dwz de kans dat ik besmet ben voordat ik de testuitslag krijg.

Met de regel van Bayes’ wordt in de kansrekening nu de a posteriori kans berekend. Op die manier kan ik toch iets met die testuitslag doen. Maar klopt die kanstheorie wel? En hoe kom ik aan die eerste kans?

Vage dingen

In de jaren 80 kwam Lofti Zadeh met een wiskundige theorie en een logica op de proppen om met vage eigenschappen, zoals bruin, kaal, volwassen, besmet, te rekenen en te redeneren. Vage verzamelingenleer en vage logica. (Er is overigens niets vaags aan beide; het is gewoon harde wiskunde over softe dingen.) Het doel van Zadeh was om de computer te leren om met en over uitspraken in de gewone (natuurlijke) taal te redeneren. Zijn fuzzy logic werd toegepast in controle systemen van apparaten, zoals was-machines maar ook in systemen waarin je met een verzameling van zoektermen kunt zoeken in gegevens-banken.

Sommige mensen waren enthousiast over deze nieuwe theorie om met onzekerheid om te gaan. Anderen vonden het maar niks. Daar was ook wel reden voor. Volgens de normale logica geldt als A = B en B = C dan geldt ook A = C. Maar voor vage gelijkheden, zeg maar ‘de lijkt op’ relatie geldt dit niet: als A op B lijkt en B lijkt op C dan hoeft A nog niet op C te lijken. Vage logica’s hebben daar last van.

De fysicus E.T. Jaynes moest er ook niets van hebben. Volgens hem was er maar één logische theorie voor het redeneren en rekenen met onzekerheden en dat is Probability Theory, de klassieke standaard waarschijnlijkheidsrekening, de kansrekening van Pascal. Ook Sir Harold Jeffrey’s en Peter Cheeseman waren die mening toegedaan. Cheeseman baseerde zijn expert- en classificatie-systemen op de Bayesiaanse methodes van de kansrekening. Er ontspon zich een echte schoolstrijd tussen voor- en tegenstanders van de verschillende methodes om met onzekerheid te redeneren, waarin wetenschappers elkaar met argumenten en demonstraties van toepassingen om de oren sloegen. Cheeseman schreef in een mail-uitwisseling dat er met die fuzzyci, de aanhangers van fuzzy logic, niet redelijk meer gepraat kon worden.

Mijn interesse voor de Bayesiaanse methode werd gewekt door Jaynes’ Probability Theory. Jaynes was een fanatiek Bayesiaan, een volgeling van Harold Jeffreys, niet te verwarren met de Princeton filosoof R.C. Jeffreys, een ‘afvallige’ die zich volgens Jaynes schuldig maakte aan ‘ad-hoc’ oplossingen.

Hypothese testen – Bayesiaanse wijze

Ik was overtuigd van de mogelijkheden van Jaynes direct op de kansrekening van Pascal gebaseerde methode om hypotheses te toetsen. Stel je hebt een zooitje gegevens D en je hebt hypotheses H1 en H2. Dan bereken je de kans P(H1|D) en de kans P(H2|D) (de kans dat H1, resp. H2 het geval is gegeven de data D) en je kiest voor die hypothese die de grootste kans heeft. We pasten in ons onderzoek de Bayesiaanse ‘causale’ netwerken methodes van Judea Pearl (2001,2018) toe in onze systemen voor het identificeren van taalhandelingen in dialoog-systemen. De computer kon met zo’n netwerk en de bijbehorende algoritmes berekenen of de spreker met de uiting “U hebt nog bruin brood.” een vraag stelt of een statement maakt. (Ik zet dat ‘causale’ tussen aanhalingstekens want over dat begrip causaliteit van Pearl, daarover is het laatste woord nog niet gesproken.)

Voor echte Bayesianen is Probability Theory (PT) dé enige manier om logisch te redeneren in de experimentele wetenschappen. Voor Jaynes is PT de Logic of Science. Daarin sloot hij zich aan bij geleerden van het caliber Leibniz en Maxwell. Door het lezen van Jaynes’ werk begon ik eindelijk iets van statistiek te snappen.

De regel van Bayes uit Pascals kanstheorie

Wanneer je met de regel van Bayes van Pascals kansrekening rekent heb je een apriori kansverdeling nodig, een zogenaamde ‘prior’. Jaynes heeft een theorie over welke daarvoor te nemen. Jaynes is van oorsprong fysicus, student van Oppenheimer, en de man van het Maximum Entropie Principe. Het zegt dat je bij de keuze van zo’n kansverdeling je moet houden aan de data en die verdeling moet nemen die de maximale entropie (een soort van onzekerheidsmaat voor kansverdelingen) heeft. Om een heel simpel voorbeeld te nemen. Als je een dobbelsteen met zes kanten hebt en je hebt er helemaal geen kennis van of ervaring mee, dan neem je als prior de uniforme verdeling: de kans op elke uitkomst van een worp met de dobbelsteen is dan 1/6, voor alle gelijk. Deze heeft de maximale entropie. Ik vond het principe van Jaynes zeer plausibel.

Bovendien waren die Bayesiaanse netwerken van Pearl nog inzichtelijk en toepasbaar ook. (Zie mijn blog over causale netwerken.) Ik begreep dan ook niet waarom onze studenten nog steeds lastig werden gevallen met de klassieke statistiek, waarin p-values werden berekend omdat deze iets zouden zeggen over de kans dat een hypothese verworpen moest worden. Volgens deze schoolse methode van de universiteit moest je namelijk P(D|H) berekenen, de kans dat de data gegenereerd wordt als hypothese H het geval is. Hoe onlogisch kun je zijn! Niet H, maar D is immers gegeven! Je moet dus niet P(D|H), maar P(H|D) berekenen, zoals Bayes zei. Geen speld tussen te krijgen.

Ik begon aan een kruistocht om de universiteit vrij te maken van de dwaling. Weg met de p-values! Er moest Bayesiaans geredeneerd worden met onzekerheden. Ook in de rechtszaal want daar was het ook helemaal fout gegaan waardoor bijvoorbeeld de verpleegster Lucia de B. ten onrechte in de gevangenis belandde. Helaas. Het bleek voor veel studenten al knap lastig het verschil tussen P(H|D), de kans dat H geldt, gegeven D en P(D|H), de kans dat D geldt gegeven H uit elkaar te houden. En niet alleen voor studenten. Ook in de rechtszaal worden deze twee al te makkelijk verwisseld: de beruchte Prosecutor’s Fallacy is een hardnekkig fenomeen.

Ik schreef een stukje “What is probability theory about” waarin ik mijn enthousiasme voor Jaynes’ benadering probeerde over te brengen. Men was in Twente niet geïnteresseerd. Op één collega na, met wie ik programmeeronderwijs gaf, hij had een luisterend oor. Maar hij vond Fuzzy Logic veel interessanter dan Bayesiaanse netwerken. Ik probeerde Jaynes’ en Cheeseman’s standpunt te verdedigen. Je kunt, had ik van een Russische wiskundige geleerd (Loginov, 1966), vaagheid definiëren in termen van kansen. Dat is gebaseerd op de gedachte dat de mate waarin een brood bruin is, gezien kan worden als de kans dat iemand in een groep mensen die brood eten, verkopen of bakken, een brood als ‘bruin’ aanmerken. Je vraagt heel veel mensen: is dit brood bruin? Zeggen 60 van de 100 ondervraagden “ja”, dan verklaar je dat brood 0.6 bruin en daarmee 0.4 wit omdat dat het tegengestelde is. Je zegt dan in feite dat iets een bepaalde eigenschap heeft (een brood is bruin), als voldoende mensen zeggen dat het die eigenschap heeft (het brood bruin noemen).

Deze methode hebben we nog eens toegepast om de agreement van beoordelingen van mensen over gedrag van verdachten in politieverhoren te meten (op den Akker, 2013). Die beoordelingen werden namelijk gedaan door vage labels als ‘vriendelijk’ , ‘aardig’ , ‘meelevend’, ‘dominant’, etc. aan het gedrag op te plakken. Om te berekenen (je bent wiskundige of je bent het niet) of twee beoordelaars het gedrag van een verdachte hetzelfde beoordelen moest er een afstandsmaat tussen de verschillende labels worden gedefinieerd. ‘Vriendelijk’ ligt dichter bij ‘aardig’ dan bij ‘dominant’. Dat deden we met deze kansmaat. Agreement tussen veel beoordelaars moet je meten omdat je de gelabelde data wilt gebruiken om de computer te leren wat ‘vriendelijk’ en wat ‘dominant’ betekent (zie Krippendorff, 2004) . Uit ons onderzoek bleek bijvoorbeeld dat als je de computer leert wat ‘agressief’ gedrag is en je doet dat met door politieagenten beoordeelde trainingsdata je een veel mildere computer krijgt dan wanneer je de computer traint met gegevens die door willekeurige burgers van gedragslabel zijn voorzien. Politiemensen vinden gedrag niet zo snel ‘agressief’ als de gemiddelde burger. Waarschijnlijk omdat ze wel wat gewend zijn. Een machine neemt dus altijd de ‘subjectieve’ beoordeling van mensen over. Dat verklaart het ‘subjective machines’ in de titel van een proefschrift dat over deze materie gaat (Reidsma, 2008).

De collega die van fuzzy logic hield confronteerde mij met een keuzeprobleem zoals dat met de twee manden met ‘bruin’ brood. Waar het mij hier om gaat is de vraag naar het fundamentele verschil tussen die twee wijzen van onzekerheid. Kun je vaagheid reduceren tot kansen en omgekeerd is kans zelf te definiëren zonder vaagheid?

Volgens de methode van de rus Loginov kun je vaagheid van begrippen zoals ‘bruin’ door middel van een enquete over het gebruik van het woord bruin als een kanswaarde definiëren: de kans dat men een brood ‘bruin’ noemt. Hier lijkt echter hetzelfde probleem op te duiken waarmee we begonnen: hoe moet ik een uitspraak die afgeleid is van wat een groep mensen vindt interpreteren?

Immers wie zegt dat ik het eens ben met hoe anderen (‘men’) het woord ‘bruin’ gebruiken? De veronderstelling is dat ik behoor tot een taalgemeenschap waarvan de leden dezelfde begrippen hanteren. Maar misschien heb ik wel een afwijkend kleurbegrip. Studenten van de Politieacademie gebruikten het woord ‘agressief’ anders dan studenten van de Universiteit Twente. En om terug te komen op het virus: misschien werkt dat bij mij wel net iets anders dan bij al die ‘normale’ Nederlanders, zodat die grenswaarde voor mij de plank mis slaat.

Het probleem

Bij het redeneren over kansen volgens de gangbare kansrekening doet zich een probleem voor wanneer we kansuitspraken willen gebruiken om iets te zeggen over een individueel geval. De keuze van het brood uit de vage mand biedt je volstrekte zekerheid over wat je krijgt. Anders dan bij de kansmand. Maar bij de vage mand krijg je nooit iets wat echt bruin is, het is altijd 0.5 bruin. Je zou kunnen zeggen dat volgens de fuzzy theorie de mate van bruinheid in het individuele brood is geobjectiveerd, terwijl het volgens de kanstheorie een eigenschap is van de verzameling van alle broden. Zo kan een fabrikant van een sneltest wel iets algemeens zeggen dat voor de hele samenleving geldt, maar niets over een enkel individu. Je zou bijna zeggen: de samenleving heeft wel wat aan statistiek, maar de individuele mensen niet. Dat klinkt als een tegenspraak. De samenleving bestaat immers uit individuen. De fuzzy methode werkt voor zover we ons willen confirmeren aan het ‘normale’ gebruik van de ‘vage’ taal.

Er zijn nog andere wiskundige theorieën ontwikkeld om met onzekerheden of plausibiliteit te kunnen rekenen. Wolfgang Spohn ontwikkelde een alternatieve theorie die is gebaseerd op het idee dat informatie zelf al bevat hoe betrouwbaar het is: rank theorie. Zijn theorie is een model voor het verrassingsgehalte van nieuwe informatie, een rang is een soort inverse van kans, want hoe kleiner de kans is dat iets optreedt hoe groter de verrassing is als het optreedt.

Twee wijzen van mogelijkheid

Volgens het begrip kans in de kanstheorie moeten we eerst een ‘veld van mogelijkheden‘ bepalen. Aan iedere mogelijkheid, uitkomst van een experiment, zoals een worp met een dobbelsteen, wordt dan een kans toegekend. De kans dat die mogelijkheid optreedt. Wanneer een mogelijkheid zich niet kan voordoen dan geven we die de kans 0. Maar waarom zouden we mogelijkheden die zich niet kunnen voordoen in eerste instantie opnemen in ons kansmodel, in de verzameling van mogelijkheden? Omdat we misschien pas later op grond van nieuwe informatie moeten besluiten dat die ‘mogelijkheid’ niet (meer) mogelijk is. De kans P(A) kan groter dan nul zijn maar de kans P(A | B) kan wel nul zijn omdat het gegeven B de mogelijkheid van A uitsluit. Bijvoorbeeld als je ziet dat het regent, dan is de kans dat het niet regent nul. Merk op dat hier sprake is van twee soorten van ‘mogelijkheid’. De eerste soort bepaalt het kansmodel. Het tweede soort bepaalt de kansen in het model. Die twee mogen niet verward worden.

Mogelijk of mogelijk?

Er spelen twee begrippen mogelijk een rol die gemakkelijk verward worden. Wanneer een bepaalde gebeurtenis zich voor doet dan is die mogelijk. Je zou hieruit kunnen concluderen dat die gebeurtenis dus ook in de toekomst mogelijk kan optreden. Dat hangt ervan af wat je onder die ‘gebeurtenis’ verstaat. Iedere gebeurtenis is immers uniek en kan dus nooit nog een keer optreden. Maar als je deze beschrijft dan hebben we het over een abstract algemene gebeurtenis. In de kansrekening zijn dat de mogelijke events van het kansmodel. Als we zeggen dat het feit dat het regent het onmogelijk maakt dat de gebeurtenis ‘het regent niet’ het geval kan zijn, dan hebben we het over fysisch of werkelijk mogelijk. In die zin kan niet zowel “het regent” als “het regent niet” mogelijk zijn. De wiskunde kent geen tijd: in het kansmodel blijven beide logisch mogelijk.

Wanneer we dus op grond van het optreden van een gebeurtenis, nieuwe informatie E, zeggen dat andere gebeurtenissen, zoals niet-E niet meer kunnen optreden en daarom kans nul krijgen, dan is dat iets anders dan wanneer we zeggen dat deze andere gebeurtenissen helemaal nooit meer kunnen optreden. Ze zijn door het optreden van dit event weliswaar nu onmogelijk, maar niet in principe. Het is verwarrend en fout spraakgebruik om te zeggen dat iets dat nu optreedt kans 1 heeft en iets dat nu niet mogelijk is omdat iets anders zich nu voordoet dat dit uitsluit daarom kans 0 heeft.

Kans: frequentie of plausibiliteit?

Het onderscheid tussen de abstract algemene ‘gebeurtenis’ (het event) en de concrete instantie van gebeurtenis, het optreden nu, wordt toegepast wanneer we zeggen dat een zelfde gebeurtenis herhaaldelijk kan optreden. Hierop berust de frequentie betekenis van het logische kans-begrip.

Wiskundig wordt de kans op een bepaalde uitkomst van een experiment gedefinieerd als de limiet (of ratio) van het aantal keren dat deze uitkomst optreedt in verhouding tot het aantal experimenten onder gelijke omstandigheden uitgevoerd. Hier wordt kans dus gedefinieerd met behulp van het vage begrip ‘gelijkheid’ (in de zin van ‘similar’). In de praktijk zullen de experimenten of metingen altijd verschillen. Ze zijn nooit exact gelijk.

Dit kansbegrip en de regels van de kansrekening zijn dus van toepassing in die situaties waarin er in principe sprake is van (oneindig) herhaalbare experimenten in ‘gelijke’ omstandigheden. Bij het gooien met een dobbelsteen mogen we er vanuit gaan dat de dobbelsteen dezelfde blijft en kunnen we afzien van de manier waarop het gooien met de dobbelsteen de uitkomst bepaalt. Het schudden voor het gooien is een vorm van randomiseren: je gelooft dan dat alle mogelijke beginsituaties dezelfde kans van optreden hebben.

Wetenschapper maken modellen en onderscheiden strict het redeneren binnen het model van het redeneren dat nodig is om het model zelf te evalueren. Wetenschappelijke kennis wordt in modellen uitgedrukt. Modellen zijn theorieën, ze staan voor wat we weten. Ze zijn het beeld dat de wetenschap van het kennisdomein heeft ontwikkeld. Het nadenken en open zijn over de aannames van je model is nog iets anders dan na te denken over wat je model nu precies modelleert.

Nog een andere kwestie is of je kennis van je model als kennis, dus eigenlijk de kenner die kent in je model kunt stoppen. Sommige geleerden, zoals Luciano Floridi en Max Tegmark proberen dat. Ze hebben zo’n model nodig hebt omdat ze zo kunstmatige intelligentie (Floridi) of het universum (Tegmark) willen beschrijven.

Het advies Willem Schaafsma

Een profeet vindt zelden gehoor in eigen kring. Enthousiast over de Bayesiaanse aanpak en de methode van Jaynes schreef ik een brief naar Professor Willem Schaafsma, de zeer aimabele statisticus die aan de Universiteit te Groningen de leerstoel van de Groninger Daniel Bernoulli bezette. Ik wilde hem ook vragen in de promotiecommissie van een PhD student van ons plaats te nemen.

Fragment uit de eerste brief van Schaafsma met gedicht van Kloos.

Ik kreeg een met de hand geschreven brief van 12 kantjes terug die hij aanving met ‘Beste collega, Wat een mooie brief!’ Maar verder was het wel duidelijk dat hij vond dat ik een toontje lager moest zingen. Dat ‘gedoe van Jaynes’ was wel aardig maar ik moest me goed realiseren dat het mogelijk is dat die prior van Jaynes in strijd kan zijn met de data. Hij beëindigde de brief met:

Onderschat die kansrekening en de daarop gebaseerde mathematische statistiek s.v.p. niet. Men probeert daar volstrekt expliciet alle in en outs te specificeren. Maar inderdaad: de statistiek kan niet zonder ‘Deus ex Machina’s’.

Met vriendelijke groet, Willem (ik bel je wel eens).

De Drie Gevangenen

Ik stuurde hem mijn stukje “What is probability theory about” waarin ik o.a. in ging op het beroemde probleem van de Drie Gevangenen.

Gevangenen A,B en C zitten in hun cellen. Ze weten dat één van de drie zal worden geëxecuteerd, de andere twee worden dan vrijgelaten. Alleen de gouverneur weet wie de ongelukkige is. Gevangene A vraagt de bewaker een gunst: vraagt u de gouverneur wie veroordeeld zal worden en laat dan één van de twee, B of C, weten dat hij vrijgelaten zal worden. De bewaker doet het en komt A later vertellen dat hij B heeft gezegd dat ie vrijgelaten wordt.

Wat is de kans dat A wordt geëxecuteerd gegeven deze nieuwe informatie van de bewaker? Verandert de informatie iets aan het geloof van A?

Er zijn verschillende opties.

Omdat A van te voren al wist dat B of C vrijgelaten zou worden is de informatie dat B het is voor A niet relevant. Zijn kans blijft dus hetzelfde.

Anderzijds: omdat er na het bericht van de bewaker nog slechts twee mogelijkheden zijn (A of C), is de kans dat A het is die geëxecuteerd wordt niet meer 1/3, maar 1/2 .

Volgens Gardner en anderen moeten we Bayes rule toepassen en is het correcte antwoord 1/3. De kansen veranderen niet door de informatie van de bewaker aan A.

Ik was het er niet mee eens.

Ik meende dat wanneer de gevangene in het verhaal nieuwe informatie krijgt van de bewaker hij een nieuw kansmodel zou moeten maken. En met dat model de nieuwe kans dat hij vrijgesproken zal worden kan berekenen. Waarom zou de gevangene dat niet doen? Ik toog naar Groningen waar de professor elke donderdagmiddag een soort van inloop-spreekuur hield. Iedereen kon daar terecht met een statistiekprobleem. Of zo maar, voor een kopje koffie. Daar ontmoette ik ook Dirk Kleima, mijn vroegere docent Informatietheorie, bij toeval. En Casper Alberts die bezig was met zijn promotieonderzoek bij Willem Schaafsma. De professor had Casper mijn stukje gegeven. Hij kende het dilemma van de gevangenen niet, maar vond het wel interessant. Hij besteedt er nog aandacht aan in zijn proefschrift.

De mathematicus probeert “alle ins en outs” expliciet te specificeren. Op eenzinnige wijze, klaar en helder. De ‘fout’ in mijn denken over De Drie Gevangenen was precies de verwarring van denken in het model en van buiten het model. Ik dacht: die figuren in de gevangenis die kunnen toch zelf wel nadenken. Maar dat was niet hun rol in de puzzel. Er werd over hen nagedacht en hun kansen waren in de opzet van het probleem al volledig vastgelegd. Het bleek een leerzame denkfout. De verwarring zit hem erin dat het niet duidelijk is wiens belief-state moet worden aangepast op grond van de nieuwe informatie. Die van de puzzelaar of die van de gevangene A? De puzzelaar moet iets zeggen over de belief-state van A. Niet door zich in hem te verplaatsen maar door hem als een object in een kansmodel te behandelen.

Informatie, wat is dat?

Wiskunde werd ook wel stelkunde genoemd. Omdat wiskundigen voortdurend allerlei dingen stellen. Stel dit, stel dat, …Om vervolgens te kijken wat uit deze aannames allemaal logischerwijze volgt. Frege heeft lange tijd gedacht dat je de wiskunde dus wel kan reduceren tot logica: hij is de vader van het logicisme. Maar ouder geworden zag hij dat dat niet mogelijk was. De wiskundige moet eerst wat stellen. En dat is niet logisch.

De mathematiek heeft problemen met het beschrijven van verandering, met mogelijkheden die werkelijk worden, met informatie die eerste vaag of onvolledig is en geleidelijk aan steeds duidelijker voor iemand wordt, zoals in een spreekuur, en met het beschrijven van machines die ‘zelf denken’ of modellen maken.

Problemen rijzen wanneer de mathematicus probeert deze zaken op wiskundige wijze te modelleren en daarbij niet heel consequent en rigide aan het onderscheid blijft vast houden tussen het model van buiten af gezien, als gemaakt door de wetenschapper en de kennis die in het model is vastgelegd. Die problemen uiten zich vroeg of laat in paradoxen. In logische tegenspraken, zoals de Russell paradox het gevolg is van de poging het verzameling begrip als verzameling te denken. Of in logisch gevolgen die in strijd zijn met onze intuïtie.

Een voorbeeld van zo’n paradox vond Luciano Floridi, filosoof van de informatie, in de semantische theorie van Bar-Hillel en Carnap. Door hem dan ook de Bar-Hillel-Carnap paradox gedoopt. Ook anderen zoals Mingers en Dretske wezen er op.

Ik meen nu dat de Bar-Hillel-Carnap paradox die voor Luciano Floridi aanleiding was om van informatie te eisen dat deze ware informatie moet zijn om informatie te zijn gevolg is van de verwarring tussen de manier waarop over onzekerheid wordt gedacht.

Het belang van het inzicht in deze paradox moet niet onderschat worden. Om tot een oplossing te komen vond Floridi een uitweg. Die komt neer op de these van de sterke semantische informatie. Die komt er op neer dat informatie alleen informatie is als het waar is.

Dat is in strijd met het gewone gebruik van ‘informatie’. Ik vind dat een universele theorie van informatie dat gebruik moet respecteren, omdat in het gebruik van de woorden het begrip van het volk tot uitdrukking komt.

Wanneer de virologe Marion Koopmans zegt: “The more we know, the less we know.” dan drukt ze daarmee uit dat nieuwe informatie aanleiding kan zijn onze kennis te heroverwegen. Passen we ons kansmodel aan of blijven we binnen het model opnieuw aposteriori kansen berekenen?

Dat er verschillende betekenissen en gebruiken zijn van het woord informatie is bekend. Shannon (van Shannon en Weaver’s The Mathematical Theory of Communication; zie mijn blog Het Kanaal) had het ook over informatie, maar het interesseerde hem niet in het minst wat de mensen zeiden of bedoelden die een bericht over zijn communicatiekanaal stuurden. Wat hem betreft zeiden ze “Het brood is wit en het brood is niet wit”. Hij codeerde het en stuurde het bericht het kanaal in. Wat hij deed was kansen berekenen. Hoe vaker een bericht voorkomt, des te korter werd de code voor dat bericht. Zo kun je maximaal gebruik maken van de breedte (capaciteit) van het kanaal. Hij hoefde immers niets met het bericht te doen dan ervoor te zorgen dat het op een efficiënte manier aan de ander kant van het kanaal ontvangen werd en weer gedecodeerd kon worden.

Bar-Hillel en Carnap waren wel geïnteresseerd in de betekenis van het bericht. Ook zij hadden ‘een tik van de wiskundige molen gehad’ en ze probeerden dus een wiskundig model te maken van de inhoud van de beweringen die mensen over het kanaal stuurden. Dat werd op den duur een zogenaamd ‘belief-update model‘.

Het idee van zo’n model is zo oud als Laplace. En je vindt het ook terug bij Jaynes. Als je nieuwe gegevens of informatie (dat werd niet onderscheiden) binnen krijgt dan verandert je geloof. De terminologie is allemaal Engels: belief heeft niets met geloof in de zin van religie te maken, maar met iets wat we bedoelen als we zeggen “ik geloof/denk dat het morgen gaat regenen“.

De geleerden (epistemologen en doxastici) zeggen dat we aan zo’n geloof, dat we dus in een bewering (zoals “het regent”) kunnen uitdrukken, een mate van vertrouwen of plausibiliteit toekennen (Sommigen beweren dat we dat doen; anderen zeggen dat we kunnen doen alsof we dat doen.) De hoeveelheid informatie die een bericht bevat kunnen we nu meten door te kijken hoeveel onze ‘geloofstoestand’, weergegeven door een heel stel beweringen over de wereld met daarbij de mate van geloof erin, door de nieuwe informatie verandert. De mate van geloof in de dingen die je gelooft verandert dus door de nieuwe informatie. Als je een bericht binnen krijgt met informatie die je al had, dan is de informatie-inhoud ervan voor jouw nul, want er verandert niets aan je geloofstoestand.

Die mate van geloof (plausibility van uitspraken) voldoet volgens sommigen aan de kanstheorie van Pascal.

Dat wil onder andere zeggen dat de mate van geloof dat het regent plus de mate van geloof dat het niet regent samen 1 is. Men spreekt van een ‘subjectieve’ kans die de plausibiliteit van een geloofsinhoud, een bewering, aangeeft. Dit is zeer breed aanvaarde wetenschappelijke formele kennis-theorie. De additieve wet van de kansrekening zegt dat de kans op iets bepaalds (een event) optreedt plus de kans dat dat iets niet optreedt samen altijd 1 is. Dat komt overeen met de klassieke logica die zegt dat als een bewering waar is dan is hij niet niet waar en omgekeerd.

Als we ons geloof dat het regent uitdrukken zeggen we: “Het regent”. We zeggen niet: “De oordeelszin “het regent” Is waar”. We zeggen ook niet “ik geloof dat het regent”. Als we iets geloven dan geloven we ook dat dat waar is en als we zeggen dat het regent dan menen we en bedoelen we ook meestal dat het regent. Ook al kan aan dat laatste soms getwijfeld worden. Vooral als het om een ander gaat die dat zegt. Niet omdat we denken dat er bewust gelogen wordt, maar omdat het vaak niet duidelijk is waarom het waar is, en wat het precies betekent. Het strikte scheiden van een zin en de waarheidswaarde ervan of van de zin als inhoud van een geloofstoestand of als iets dat beweerd wordt dat is allemaal verstandelijk gedoe. Dit gedoe doet de werkelijkheid soms nogal geweld aan.

Informatie berust op wat gegeven is

Uiteindelijk berust informatie op de onbetwijfelbare onmiddellijke zintuiglijke ervaring; op de beleving dat “het regent”. Daarin kennen we een zekerheid die niet het gevolg is van een conclusie. Het ervaren feit het hier en nu gegeven is onmiddellijke oorzaak van het geloof.

Als in de werkelijkheid iets gebeurt, zeg event A, dan kunnen we dat op verschillende manieren opvatten: als een teken of als een feit.

Is A een feit dan kun je concluderen dat A mogelijk is en dus vaker kan optreden. Je neemt dan aan dat wanneer (ongeveer) gelijke omstandigheden zich weer voordoen hetzelfde wel weer zal gebeuren. Wordt A opgevat als een teken dan moet je eerst bepalen wat het precies betekent. In de moderne natuurwetenschap wordt A opgevat als verschijnsel van een wetmatigheid, niet als een teken dat uiting is van een eigen bedoeling van de natuur.

De relatie tussen kans en informatie

De intuïtie over kans van optreden van een bericht en informatieinhoud ervan wordt uitgedrukt in een these: de “Inverse Probability Thesis”. Deze zegt “Hoe kleiner de kans dat een bericht optreedt des te groter is de informatie-inhoud van het bericht voor degene die het bericht ontvangt.”. Deze leidt echter tot de conclusie dat een bericht met de tegenstrijdige inhoud “Het brood is wit en het brood is niet wit” maximale informatie-inhoud heeft omdat het alle werelden die je op grond van je geloof voor mogelijk hield onmogelijk verklaart. Maar wat de bewering beweert heeft kans nul, omdat hij een onmogelijkheid uitdrukt. Daarentegen heeft de ware bewering “Het brood is wit of niet wit” geen informatie-inhoud want dit is trivialiter waar. Deze bewering heeft een kans 1: hij is altijd waar.

We zien hier dat onwaar en waar als grenswaarden van de kansgrootte worden gezien. Maar logisch waar of logisch onwaar zijn begrippen van een andere categorie dan de empirische categorie waarop het begrip kans betrekking heeft. We zien hier een verschil tussen de modellering van de “vage onzekerheid” en de “kans onzekerheid”. Bij de vage onzekerheid kunnen de grenswaarden 0 en 1 gezien worden als grenswaarden van dezelfde categorie. Wit en zwart zijn symmetrische tegenpolen: wat wit is in mate 1.0 is zwart in mate 0.0 en omgekeerd. Maar waarheid en onwaarheid van een oordeel zijn geen symmetrische begrippen. In die zin dat als een bewering beweerd wordt dan is deze ook waar. Als ik zeg “het regent” dan bedoel ik ook dat dat zo is. Het beweren houdt de waarheid van de bewering in. Pas wanneer we een formeel onderscheid maken tussen de bewering als het produceren van een oordeelszin en de oordeelszin op zich genomen dan pas verschijnt het onwaar zijn als een waarheidswaarde die aan de zin wordt toegekend. Maar dan gaat het niet meer over wat de zin beweert maar over het optreden van de zin als een talig object. Wie zal serieus beweren: “Het regent en het regent niet”? Zo’n bewering valt buiten de orde van elk redelijk gesprek.

De oorzaak van de Bar-Hillel-Cantor paradox is dus het niet goed onderscheiden tussen het voorkomen of produceren van de zin als iets uitwendigs en het beweren door middel van het uiten van de zin.

Frege voerde in zijn Begriffschrift de ‘Urteilsstrich’ (het symbool I– ) in omdat de bewering als talig object niet beweerd wordt. Dit onderscheid tussen de geuite zin en de bewering die de waarheid van de beweerde zin inhoudt is precies waar het omgaat als we ware en onware informatie willen onderscheiden. Maar van buiten kunnen we aan de uiting niet zien of deze ware of onware informatie bevat.

Een zin zegt niet van zichzelf of deze waar is. Ook een machine kan niet zeggen of deze de waarheid spreekt. Of informatie waar is, is iets dat in interactie overeengekomen moet worden. De basis voor informatie bestaat uit de gegevens. Dat zijn de inhouden van de onmiddellijke, zintuiglijke ervaringen. Deze kunnen we niet ontkennen zonder ons zelf te ontkennen. De gegevens zijn de blote feiten.

Over intelligente machines

In Floridi & Sanders (2004) wordt een poging gedaan om de vraag of een technisch systeem een ‘morele agent’ is te preciseren. Pas dan kunnen we het immers eens worden over een antwoord op deze vraag. F&S definiëren daartoe deze agenten op een wiskundige manier als een transitiesysteem. Zo’n systeem is op ieder moment in een bepaalde toestand. Die toestand bestaat op zich weer uit deeltoestanden.

Opdat zo’n systeem een autonoom genoemd kan worden moet deze in zekere zin uit ‘zichzelf’ kunnen acteren. Daarom bevat een deel van de toestand (‘het geheugen’) het programma van de agent. Dat zijn de actuele transitieregels die de toestandsverandering van het systeem bepalen/beschrijven. F&S spreken van een ‘cognitive trick’. Deze ‘trick’ berust echter op een verwarring: de beschrijving van het systeem wordt als onderdeel van het systeem zelf gezien. Variabelen waarmee de verandering van het systeem beschreven wordt krijgen ook een functie in het systeem zelf. ‘Observables’ zijn variabelen waarvan de waarden door het systeem geproduceerd worden en die tevens de functie hebben om de werking van het systeem te beschrijven. De verwarring is dat het systeem en de beschrijving van het systeem naast elkaar worden gezien. Maar de regels die ervoor zorgen dat het systeem werkt zoals in het programma-deel van de toestand staat zijn juist niet als onderdeel van het systeem in het programma opgeslagen. Die regels zijn juist geïmplementeerd in de materiële constructie (de hardware) van het systeem.

De Urteilsstrich van Frege’s Begriffschrift is juist niet een deel van de bewering. Zo zijn de regels volgens welke de machine werkt juist niet een deel van het programma dat de machine uitvoert. Op dezelfde wijze zegt P( A | H ) = 1 dat A in het kansmodel de kans 1 heeft om waar te zijn, wat een bewering in een andere taal is dan de taal waarin we zeggen dat de bewering A waar is.

Taal en Taalmodel

Een zelfde verwarring van model en werkelijkheid ligt op de loer wanneer we een formele grammatica en een lexicon hebben opgesteld die de ‘natuurlijke taal’, de echte taal die wij gebruiken, modelleert. Zo’n formele taal is een wiskundig object, een verzameling van ‘zinnen’, dat zijn rijtjes ‘woorden’ uit het lexicon van de formele taal. De formele grammatica specificeert wat precies de goed-gevormde zinnen van de taal zijn. Het is een systeem dat gebruikt kan worden om zinnen, rijtjes woorden, te genereren. Voor de constanten van het model die staan voor de woorden die in de formele taal voorkomen kiezen we (meestal) de woorden uit de echte taal waarvoor ze staan. Dus het woord ‘brood’ in de formele taal, het wiskundig model, staat voor het woord ‘brood’ in onze echte taal. Het is een ‘identifier’ waarmee het wiskundig object dat model staat voor het woord door ons wordt aangeduid. Zoals we cijfers gebruiken als ‘namen'(tekens) voor getallen, de eigenlijke wiskundige objecten.

Bij het tekstverwerken verschijnen de representaties van de woorden op het beeldscherm. Maar deze twee zijn daarmee nog niet gelijk. De constante term ‘brood’ in het model is weliswaar in zekere zin inhoudelijk (‘materialiter’) identiek aan het woord ‘brood’ in de taal die wij gebruiken, maar is er formeel van onderscheiden. De machine kan een rijtje woorden produceren (‘schrijven’ of ‘uitspreken’) maar dat is een model van het zeggen dat wij doen als we ‘een zin uitspreken’.

Wie het taalmodel voor de echte taal houdt en het produceren van een zin voor het zeggen houdt, die beschouwt de mens als een machine of de machine als een mens. In beide gevallen wordt het formele en het materiële aspect niet onderscheiden. De formele identiteit, het wiskundige conceptuele model, de structuur van de machine, wordt tot de zelfde werkelijkheid gerekend als de machine die er door beschreven wordt. Wiskundige objectiviteit en fysische objectiviteit worden vereenzelvigd. Daarmee wordt betekenen en refereren een relatie tussen gelijksoortige entiteiten. Bij kennis is er net als bij taal echter wezenlijk sprake van zowel een identiteit als van een onderscheid. In de kennis is het gekende aanwezig op de wijze van gekend te zijn. Kenbeeld en werkelijkheid zijn in het kennen zowel identiek als onderscheiden. De machine is machine voor de mens die deze als machine ziet. Ze is objectivatie van een denkconstructie, waarbij gebruik gemaakt wordt van de wetten van de natuur.

Je zou kunnen zeggen dat de intelligente machine juist gebruik maakt van de verwarring. De ontwerper heeft er met opzet voor gekozen om voor de identifiers van de observeerbare entiteiten van de interface (het beeldscherm) die tekens te nemen die lijken op de woorden van de taal van de gebruiker. Zo heeft het er alle schijn van dat de machine de taal van de gebruiker spreekt of schrijft.

Een Universele Theorie van Informatie

Vanwege de Bar-Hillel-Carnap paradox kozen Floridi en ook Mingers ervoor dat semantische informatie waarheid moet inhouden (de ‘Veridicality Thesis’): informatie is ware informatie. Waarom is dit onbevredigend?

Een Universele Theorie van Informatie als uitdrukking van ons begrip van informatie moet zowel aansluiten bij het dagelijkse gebruik van de term als bij het gebruik in de verschillende wetenschappen. Verschillende mensen, waaronder Shannon en Floridi, hebben hun scepsis geuit dat zo’n theorie er zal komen. Er worden soms drie ‘soorten’ informatie onderscheiden: syntactisch (Shannon), semantisch (betekenis) en pragmatisch (gebruik/effect). Maar er is nog geen theorie die ze alle drie in verband brengt. Dit is hoogst onbevredigend. Het duidt erop dat we nog niet goed begrijpen wat informatie is. Terwijl in het ICT tijdperk alles zo’n beetje om ‘informatie’ draait.

De weg naar een oplossing

De ‘cognitive trick’ die Floridi en Sanders nodig hebben om een agent op wiskundige wijze als een transitiesysteem te beschrijven is dat ze de beschrijving van het model van de agent/het systeem en de beschrijving van de veranderingen van het systeem het programma van de machine door elkaar halen. Dat komt omdat de geprogrammeerde machine als onderdeel zijn eigen programma bevat. Als je dat een beetje sloppy formuleert dan zeg je dat een toestand van het systeem de functie bevat die zegt hoe het systeem van toestand moet veranderen wanneer het ‘zich’ in deze toestand bevindt. Maar zo werkt het niet.

Het programma en de machine

Als een machine werkt dan voert het voor ons weliswaar een programma uit maar hij doet dat niet volgens dat programma, maar volgens een ander programma. Als je een wasmachine geprogrammeerd hebt door de gewenste instellingen met de diverse knoppen op de interface te kiezen en daarna op de start knop drukt, dan start je niet de wasmachine zelf op. Die moet immers al werken. Je start het programma op. Het starten van het programma is iets van binnen het model. Het aansluiten en programmeren is iets van buiten het model.

De paradox van Bar-Hillel en Carnap berust op een vergelijkbare verwarring tussen binnen en buiten het model. De bewering als zin en de bewering als bewering over een werkelijkheid zijn twee verschillende aspecten van de werkelijkheid van het informatie begrip. Het is een vorm van solipsisme te doen alsof je het over ware informatie kunt hebben als een objectief ding, iets dat je kunt verzenden.

De zin “Deze zin is waar” lijkt wel iets te zeggen, maar de zin waarnaar deze verwijst is slecht de zin als object waarnaar “van buiten af” verwezen wordt en dat is juist niet de zin die wordt uitgesproken. Zou dat wel het geval zijn dan zou de zin “Deze zin is niet waar.” een logische paradox zijn en dus niet kunnen bestaan.

Informatie en kennis en communicatie behoren tot het domein van de intersubjectiviteit niet tot dat van de wiskunde en de machines. We moeten dus om informatie te snappen uitgaan van de intersubjectiviteit en niet zoals we nu steeds doen uitgaan van geïsoleerde subjecten. Alsof communicatie iets is dat gemaakt kan worden uit twee van elkaar gescheiden gedachte subjecten.

Een subject is altijd subject voor een ander subject: de kern ervan is de intersubjectiviteit.

Tot slot

Het klinkt zo logisch en triviaal: je moet het model niet met de werkelijkheid verwarren. En toch trappen we er steeds weer in. We vergeten dat de machine zoals we die zien een beeld is van de machine, en dat werkelijkheid zoals we die beschrijven niet de werkelijkheid zelf is, maar een beeld ervan. De verwarring ligt op de loer wanneer we beeld en maker van beeld allebei afbeelden. Het objectiveren van het wiskundig redeneren in de computer nodigt tot deze verwarring uit: de maker van het beeld als maker in de machine te denken.

In “De poging tot het onmogelijke” heeft Magritte dit idee verbeeld.

De poging tot het onmogelijke (Magritte)

Niet alleen gaat de wetenschap zoals Aristoteles al opmerkte niet over een bepaald individu, ook wordt kennis tegenwoordig opgevat als iets dat geabstraheerd is van de individuele persoon die de kenner is. Kennis is gedesubjectiveerde kennis. Ik zou deze vorm van kennis informatie noemen en de kennis die integraal deel is van de persoon kennis. Informatie is wat je deelt en wat in gesprekken tot stand komt en verbeterd wordt. Kennis is wat je zelf weet of gelooft. Ik denk dat het niet toevallig is dat Floridi bij zijn onderzoek naar een formele logica voor het redeneren over beweringen als “agent a heeft informatie x” tot een modale logica komt die equivalent is met een kennis logica. Zijn uitgangspunt is dat informatie waar moet zijn. Maar wat waar is dat komt in een dialoog naar voren. Informatie is immers het voorlopig resultaat van een meting of een vraag die wanneer beide partijen het eens zijn over de betekenis en de mogelijke antwoorden erop ook een meting is. Informatie in de volle zin van het woord bestaat voor degenen die betrokken zijn in een interaktief proces van kennisverwerving en informatie-uitwisseling. Buiten dat proces kan er geen spraken zijn van waarheid of ware informatie. De idee dat kennis waarachtig geloof is getuigd van een opvatting van een buitenstaander die kan beoordelen wat waar. Maar zodra deze buitenstaander zo’n oordeel uitspreekt is hij geen buitenstaander meer.

Mijn kennis is mijn persoonlijk eigendom; ontwikkeld in mijn contacten met anderen, met mensen zoals mijn ex-collega’s van de UT en met Professor Schaafsma. Die kennis is ondeelbaar, gebonden aan de eigen ervaring, anders dan informatie die deelbaar is. Google en de Belastingdienst mogen nog zoveel informatie over mij hebben, mij kennen is iets anders.

Wat heb je nu aan statistische uitspraken als je die op een enkel bijzonder geval, op je zelf, op die ene keuze die je moet maken in dat ene leven dat je hebt, wil toepassen? Het hangt ervan af hoeveel informatie die op dit geval betrekking heeft is meegenomen in het kansmodel. En omdat dat altijd beperkt is blijft het een kwestie van God zegen de greep oftewel zoals Willem Schaafsma schreef in zijn brief, van een “Deus ex machina”.

Bronnen

Rudolf Carnap and Bar-Hillel, Yehoshua (1952). An Outline of a Theory of Semantic Information. Cambridge: Research Laboratory of Electronics, MIT.

Peter Cheeseman (1985). In defense of probability theory. IJCAI’85: Proceedings of the 9th international joint conference on Artificial intelligence – Volume 2, August 1985, Pages 1002–1009. “Probability theory is all that is needed“.

Simon Keizer, Rieks op den Akker, Anton Nijholt (2002). Dialogue act recognition with Bayesian networks for Dutch dialogues. Proceedings of the Third SIGdial Workshop on Discourse and Dialogue, 88-94. Eén van de eerste papers waarin Bayesiaanse netwerken gebruikt worden voor dialoog-handeling-herkenning.

Judea Pearl & Dana Mackenzie (2018). The Book of Why : the new science of cause and effect. New York: Basic Books.

Judea Pearl (2001), Causality: models, reasoning and inference. Cambridge University Press, Revised edition, 2001.

Dennis Reidsma (2008). Annotations and Subjective Machines: Of Annotators, Embodied Agents, Users, and Other Humans, PhD thesis, Universiteit Twente.

Rieks op den Akker, Merijn Bruijnes, Rifka Peters, Teun Krikke (2013). Interpersonal stance in police interviews: content analysis, Computational linguistics in the Netherlands journal 3, 193-216, 2013.

E.T. Jaynes (2003). Probability Theory: the logic of science. Cambridge University Press.

Krippendorff, K. (2004), Reliability in content analysis: Some common misconceptions and recommendations, Human Communication Research 30(3), pp. 411–433.

Luciano Floridi, Sanders, J. (2004). On the Morality of Artificial Agents. Minds and Machines 14, 349–379 (2004).

Luciano Floridi (2006). The Logic of Being Informed. Logique & Analyse 196 (2006)

Luciano Floridi (2008). The Method of Levels of Abstraction. Minds & Machines 18, 303–329 (2008).

Luciano Floridi (2010). The Philosophy of Information as a Conceptual Framework. Know Techn Pol 23, 253–281 (2010).

Luciano Floridi (2003). On the intrinsic value of information objects and the infosphere. In: Ethics and Information Technology, volume 4, pages 287–304(2002)

Luciano Floridi (ed.) (2016). The Routledge Handbook of the Philosophy of Information.

Loginov, V.I. (1966). Probability treatment of Zadeh membership functions and their use in pattern recognition, Engineering Cybernetics pp. 68–69.

John Mingers (2013). Prefiguring Floridi’s Theory of Semantic Information. tripleC 11(2): 388-401, 2013.

Wolfgang Spohn (2009). A Survey of Ranking Theory. In: F. Huber, C. Schmidt-Petri (eds.), Degrees of Belief, Synthese Library 342, 2009.