Deepfake: de overtuigingskracht van de verboden reproductie

Net zo goed als we er zeker van zijn dat het regent wanneer we zien en horen dat het regent, zo zijn we ervan overtuigd dat het Obama zelf is die spreekt als we hem in een video zien en horen spreken. Dit is een vorm van “geloven dat” waar we niet bewust toe besluiten, maar dat als het ware automatisch tot stand komt. We realiseren ons helemaal niet dat we op grond van onze zintuiglijke waarneming (ik zie dat het regent) onmiddellijk springen naar een concluderend oordeel: “Het regent.” of “Obama zegt ….”. Volgens de Britse filosoof Bernard Williams is er bij een dergelijk empirisch geloven (’empirical belief’) sprake van een oorzakelijk verband: je gelooft dat iets zus en zo het geval is omdat het zus en zo is. De filosoof David Hume meende dat ons inzicht in een oorzakelijk verband berust op gewenning. De ervaring leert ons ook dat we ons kunnen vergissen. Het gevolg, de waarneming, wijst niet met zekerheid naar de bron. Natuurlijk wisten we allang dat de voorstelling van iets (de afbeelding van een pijp door René Magritte bijvoorbeeld) niet de werkelijkheid (de pijp) zelf is. Maar soms is het beeld zo realistisch dat het niet van echt te onderscheiden is.

Réproduction interdite -verboden af te beelden (René Magritte, 1937)

We weten bij het zien van videobeelden dat het om opnames gaat en dat er een tijdverschil is tussen de opname en het moment van bekijken. Dat kan wel eens tot verwarring leiden, maar we mochten ervan uitgaan dat degene die we op de beelden herkenden werkelijk gezegd had wat de opname ons presenteerde. Dat is inmiddels achterhaalt. Nu is er Deepfake, AI technologie die zelfs onze zekerheid van de ervaring met een bepaald persoon een video-gesprek te voeren ondermijnt. Met deepfake technologie kunnen opa en oma zelfs na hun dood nog een verhaaltje voor lezen aan de kleinkinderen. Om maar eens een bedenkelijke toepassing te noemen.

Wat voor elke techniek geldt geldt ook voor deepfake technologie; dat je het voor heel veel uiteenlopende praktische toepassingen kunt gebruiken. Zowel moreel dubieuze als gezonde toepassingen. Naast de ethische kwestie is het de vraag wat deze Kunstmatige Intelligentie (AI) technologie betekent voor ons zelfbeeld en ons mensbeeld.

Deepfake

Deepfake staat voor “deep learning fake”, computer software die audio en video opnames van bijvoorbeeld Obama of Trump kan verwerken en kan manipuleren zodat wanneer je het resultaat afspeelt niet te zien is dat het niet om een echte opname gaat. Met behulp van technologie kunnen we videobeelden maken die de suggestie wekken dat iemand dingen zegt die hij nooit gezegd heeft. Aan de volgende uitdaging wordt al gewerkt: technologie voor het real-time genereren van audio en video zodat de ‘gebruiker’ de ervaring heeft met iemand een gesprek te voeren.

Wetenschappers, ontwerpers en kunstenaars hebben verschillende motieven waarom ze deze technologie ontwikkelen. Zelden om anderen te misleiden; of het moet humoristisch bedoeld zijn. Afgezien van het kunstzinnige aspect en de uitdaging om iets te maken dat niet meer van echt te onderscheiden is, zijn al verschillende toepassingen bedacht.

Bijvoorbeeld, Lyrebird, een Canadese startup, werkt in samenwerking met de ALS foundation aan Project Revoice, waarin AI technologie voor spraakgeneratie wordt gebruikt voor het creëren van gepersonaliseerde synthetische stemmen voor mensen die aan de spierziekte ALS lijden en die het vermogen te spreken dreigen te verliezen. Andere medische toepassingen richten zich op eHealth applicaties.

Zowel wat betreft de onderliggende technieken als wat betreft de mogelijke toepassingen is er veel overeenkomst tussen deepfake technologie en de technologie van virtual humans (avatars) en humanoide robots. Bij beide gaat het om het simuleren en manipuleren van menselijk gedrag. We zijn allang vertrouwd met machines die standaard dingen zeggen, zoals “How can I help you?”. Het verschil is dat bij deepfake echt beeld- en geluid materiaal gebruikt wordt. Synthetic media is de paraplu-term voor alle vormen van gemaakte en gemanipuleerde audio- en video materiaal. De technische ontwikkeling van synthetic media gaat razendsnel.

Wie zo’n 20 jaar geleden het MIRAlab in Genève betrad kon bij binnenkomst een paar foto’s van zich laten maken. Een uurtje later kon een onderzoekassistent je een zeer realistische 3D animatie video van je kop laten zien. Ik vond dat toen behoorlijk indrukwekkend.

Het MIRALab werd in 1989 opgericht door Nadia Magnenat Thalmann. In Montreal, Canada, richtte ze zich met haar man Daniel Thalmann op computersimulatie van personen. In 1987 verscheen hun animatiefilm Rendez-vous in Montréal met grafische 3D computeranimaties van Marilyn Monroe en Humpfrey Bogard. Terug in Genève leidt ze een team van researchers op het gebied van virtual humans en sociale robotica. Nadia deed hoofd- en gezichts-uitdrukkingen, Daniel deed de rest van het lichaam. Het verhaal ging dat hals en nek een dilemma vormden. Was het deel van het hoofd of van de romp? Grensconflicten zijn typische problemen van analytische wetenschap en technologie.

De Japanner Hiroshi Ishiguro bouwt zeer realistische androïden die op hemzelf of een ander echt persoon lijken omdat hij wil weten wat presence betekent. Volgens het adagium “je snapt het pas als je het zelf kunt maken” wil hij namaak mensen maken die je het gevoel geven als je er bij in de buurt bent dat je niet alleen bent, zoals dat met echte mensen is. De primatoloog Frans de Waal doet in de “Griezelvallei”, verslag van zijn bezoek aan het instituut van de Japanse onderzoeker waar hij kennis maakt met het fenomeen “uncanny valley”. De Waal is verrast door de echtheid van de beleving die door het ‘gedrag’ van de robots wordt gecreëerd. We denken automatisch op grond van bijvoorbeeld gesimuleerde levensechte oog- en hoofdbewegingen dat de humanoïde zich iets afvraagt. Maar een robot is puur buitenkant. Ze hebben geen ‘zelf’ zoals apen en mensen. “Apen lijken op ons via homologie, afstamming; robots via analogie.”

Hiroshi Ishiguro en zijn geminoide robot

Sprekende virtuele mensen (avatars of embodied conversational agents) worden onder andere toegepast in e-health toepassingen. Een virtuele coach of therapeut vervangt de echte mens om deze te ontlasten. Het voordeel is dat virtuele dokters altijd aanwezig zijn en dat je zoveel kan maken als je wilt. Bovendien kun je zelf bepalen, binnen de technische mogelijkheden, hoe ze eruit zien, hoe ze zich gedragen en wat ze moeten zeggen.

Welke factoren bepalen de overtuigingskracht van een bericht op de ontvanger? Daar is veel onderzoek naar gedaan. Met name op het gebied van de medische en para-medische communicatie: adviezen in het kader van lifestyle-coaching, voeding, sport en bewegen. Een recent literatuuronderzoek werd uitgevoerd door Silke ter Stal en haar collega’s. Meestal gaat het om laboratoriumonderzoek waarbij de proefpersonen eerst een aantal karakters beoordelen op hun betrouwbaarheid puur op uiterlijke kenmerken. Vervolgens worden deze karakters gebruikt om verschillende berichten te presenteren. Het doel is tot wetenschappelijk onderbouwde richtlijnen te komen voor het ontwerpen van virtuele converserende karakters voor eHealth toepassingen. Realisme van gebaren en expressies van het kunstmatige agent is één van de factoren die onderzocht zijn. Een realistisch karakter is niet altijd beter dan een cartoonachtig karakter. Wanneer door gebrekkige onderliggende grafische of audiotechniek een realistisch karakter net niet realistisch is kan het effect op de kwaliteit van de interactie tussen gebruiker en het karakter fnuikend zijn.

Wie ervaring heeft met online videogesprekken weet dat we uiterst gevoelig zijn voor een verschil in timing van beeld en geluid. Het is behoorlijk irritant wanneer het geluid een seconde achterloopt bij het beeld. Het synchroon afspelen van de gegenereerde spraak met de gegenereerde mond- en lipbewegingen is één van de lastigste onderdelen van het maken van realistische talking heads (synthetische sprekende gezichten). Het gaat daarbij niet alleen om de matching van fonemen (de klankeenheden) met de visemen (de zichtbare mondstanden) maar ook om de meebewegingen van het gelaat, de oogbewegingen en de rest van het lichaam. Ook hier is het lastig een grens te trekken welk onderdeel van het lichaam nog meedoet aan het spreken. Met behulp van “lerende” algoritmes is het mogelijk op basis van video en audiomateriaal van een spreker de specifieke kenmerkende expressies van de spreker tijdens het spreken te identificeren.

Persbureau Reuters maakte onlangs in samenwerking met AI startup Synthesia gesynthetiseerde video nieuwsrapportages, gebruikmakend van video opnames van een presentator en deepfake technologie. Het persbureau kan nu gebruik makend van de analyses van een presentator zoveel varianten van gesynthetiseerde voetbalreportages maken als ze maar wil. Zo kunnen ze nieuwsrapportages maken die aangepast zijn op een specifieke doelgroep. Het gaat vooralsnog om een prototype voor de generatie van voetbalreportages, een tamelijk onschuldig genre.

Het automatisch genereren van voetbalreportages op basis van exacte wedstrijdgegevens is traditioneel een geliefd toepassing van Natural Language Generation (NLG), het onderdeel van AI dat zich houdt met het machinaal genereren van teksten. Ook werd daarbij al gekeken naar het afstemmen van de verslaggeving op specifieke supportersgroepen (Chris van der Lee et al. 2017). De op het gebied van NLG opgedane kennis kan nu gebruikt worden in combinatie met deepfake technologie.

Onderzocht moet worden hoe het publiek hier tegenover staat en wat de ethische implicaties zijn. Wat dat laatste betreft benadrukt Reuter dat het niet om ‘fake news’ gaat: het doel is rapportages te maken over echte gebeurtenissen. De vraag is echter wie bepaalt wat echt gebeurd is, wanneer de media bepalen welk bericht daarover door welke verslaggever aan de consument wordt gepresenteerd. Voor de ontvanger is immers datgene wat echt gebeurt is datgene wat de media als ‘echt gebeurd’ presenteert. Welke mogelijkheid heeft de consument van nieuwsmedia anders om te bepalen of iets echt gebeurd is als hij er niet zelf bij is geweest?

Welke waarde we aan een opinie schenken hangt niet alleen af van de inhoud van de opinie, maar ook van degene die de mening brengt. Met de nieuwste AI technologie kunnen we elk bericht door willekeurig welke persoon laten presenteren. Gepersonaliseerde voorlichting en adviezen op het gebied van de gezondheidszorg kunnen we laten presenteren door iemand die door de consument als betrouwbaar overkomt.

Is het wel in het voordeel van de consument wanneer de media op grond van een profiel bepaalt welke presentator het voor de consument geselecteerde nieuws presenteert? Wil de voetbalsupporter van Ajax een ander wedstrijdverslag van Ajax-PSV horen dan de supporter van PSV ? En hoe zit dat met rapportages van politiek gevoelige evenementen? Wat zijn de gevolgen wanneer de krantenlezer of tv-kijker het nieuws op een persoonlijke wijze gepresenteerd krijgt?

Informatie wint aan geloofwaardigheid wanneer deze door verschillende karakters vanuit verschillende gezichtspunten wordt gepresenteerd (zie het werk van Elisabeth André en Ngyen). In een recent afgesloten EU project Council of Coaches werd onderzoek gedaan naar het gebruik van een meerdere coaches die elk vanuit hun eigen expertise de gebruiker adviseren. Ze kunnen ook op elkaar reageren en elkaars ondersteunen of bekritiseren. Dat zou de betrokkenheid van de client/gebruiker kunnen verhogen en daardoor meer effect kunnen hebben op zijn gedrag. Met behulp van de nieuwste ‘deep fake’ technologie kunnen we de virtuele karakters vervangen door ‘levende’ karakters. Afhankelijk van het domein ( politiek, medisch, sport ) en het profiel van de consument, kunnen karakters gekozen worden die bekend zijn in dat domein. Video- en audio-materiaal van bekende influencers en BNers kunnen zo worden ge(mis-)bruikt om het publiek van een bepaalde mening te overtuigen.

De uitdaging waar de technologie voor staat is producten te maken die zo perfect zijn dat we deze op grond van onze zintuiglijke waarneming voor authentiek houden. Naarmate we iemand beter kennen zal het moeilijker zijn ons niet-zintuiglijke gevoel voor echtheid te misleiden met gemanipuleerde beelden. Een deepfake variant van de Turing game zou kunnen aantonen hoe lastig het is met deepfake technologie ons te misleiden, zeker als het om een bekend persoon gaat.

Ethische kwesties

De vrees is dat we aan het begin staan van een infocalyps, een situatie waarin iedereen gemakkelijk beschikt over technologische middelen voor het manipuleren van perceptie en het vervalsen van de werkelijkheid.

De Ethics Guidelines for Trustworthy AI geauthoriseerd door de European Commission’s High-Level Expert Group on Artificial Intelligence (AIHLEG 2019) bevat onder ander het principe overgenomen uit de medische ethiek dat AI geen schade mag toebrengen aan personen, dat het de menselijke waardigheid en de autonomie van personen niet mag aantasten en dat het goed moet zijn voor de mensheid (‘humanity’ als mens-zijn).

Met deepfake kun je mensen, bedrijven en de samenleving gewild of ongewild beschadigen. In een recent artikel in Crime Science (2020) beoordelen experts deepfake als de meest ernstige vorm van criminele toepassing van AI.

Mag je gebruik maken van audio- en/of video opnames van iemand en deze als het ware dingen laten zeggen die hij of zij nooit gezegd heeft? Het zal de geloofwaardigheid van deze persoon aantasten wanneer deze zich leent voor het produceren van deepfake. Heb je opa’s toestemming nodig voor je na zijn dood hem nog verhaaltjes voor laat lezen aan je kinderen, door gebruik te maken van zijn stem?

Er zijn ongetwijfeld toepassingen die sommigen toelaatbaar achten vanwege het doel dat ze dienen. Zo kan deepfake gebruikt worden bij de online opsporing van misdadigers, zoals dat eerder al met avatars gebeurde.

Met het bestaan van deepfake kan de authenticiteit van elke video-opname die je onwelgevallig is in twijfel worden getrokken. Dit staat bekend als “the liar’s dividend”.

Afgezien van de morele kwestie of bij bepaalde toepassingen van deze technologie het middel het doel heiligt, is er de vraag wat het bestaan van deze technologie op zichzelf doet met onze kijk op de mens en de samenleving. James Brusseau (2020) ziet dit als de belangrijkste ethische kwestie als het gaat om evaluatie van AI technology.

More than any solution, engagement is the goal of an AI ethics evaluation, which means illumination of what is at stake in terms of lived human experience.”

Deepfake technologie wijst ons op het noodzakelijk uitwendige karakter van onze expressies, van taal, gebaren en houdingen, en op het feit dat we daarmee door anderen geïdentificeerd worden en dat we onszelf daarmee weer identificeren. Wij zijn zoals wij voor anderen zijn. Video- en audio opnames van mij zijn niet alleen van mij, maar ze tonen ook wie ik ben. Manipulatie en misbruik van die opnames raakt mijn beeld en daarmee mijn persoon. Is er een recht op zelfbeeld? Zolang er beelden zijn zijn er beeldenstormen. Ze zijn niet gericht op het beeld maar op de afgebeelde en degenen voor wie die beelden nog iets betekenen.

Frans de Waal noemde de levensechte robots van Hiroshi Ishiguro puur buitenkant. Nadat de kunstmatig denkende machines ons er op hebben gewezen dat denken meer is dan wat we door machines in de sfeer van de uitwendigheid kunnen laten doen, maakt deepfake ons ervan bewust dat ook onze waarneembare expressies een uitwendige karakter hebben waarmee we ons niet volledig kunnen identificeren hoezeer we ons ook in die uitwendige beelden herkend willen worden. Zo kan deepfake, net als iedere vorm van kunst en techniek, ons helpen bewust te worden wat het betekent om mens te zijn en hoe we ons tot de uitwendige sfeer van de synthetische media moeten verhouden.

Bronnen

James Brusseau, What a Philosopher Learned at an AI Ethics Evaluation. In: AI Ethics Journal 2020, 1(1)-4, December 2020.

M. Caldwell, J. T. A. Andrews, T. Tanay, L. D. Griffin (2020). AI-enabled future crime. Crime Science, 2020; 9 (1).

Simon Chandler (2020). Why Deepfakes Are A Net Positive For Humanity. In: Forbes, 09-03-2020.

Simon Chandler (2020). Reuters Uses AI To Prototype First Ever Automated Video Reports, In: Forbes: 07-02-2020

Elisabeth André, Rist, T., van Mulken, S., Klesen, M., Baldes, S. (2000): The automated design of believable dialogues for animated presentation teams. In: Cassell, J., Prevost, S., Sullivan, J., Churchill, E. (eds.) Embodied Conversational Agents, pp. 220-255. MIT Press, Cambridge (2000) 

Nguyen, H., Masthoff, J., Edwards, P. (2007): Persuasive effects of embodied conversational agent teams. In: Proceedings of the 12th International Conference on Human-Computer Interaction, Beijing, China, 2007.

Silke ter Stal, Lean Leonie Kramer, Monique Tabak, Harm op den Akker en Hermie Hermens (2020). Design Features of Embodied Conversational Agents in eHealth: a Literature Review. Int. J. Hum. Comput. Stud., 138, 2020.

Chris van der Lee, Emiel Krahmer en Sander Wubben (2017). Pass: A dutch data-to-text system for soccer, targeted towards specific audiences. In Proc. INLG’17, pp. 95–104, 2017.

Williams, Bernard (1970). Deciding to believe. In: Problems of the self: philosophical papers. Cambridge University Press, 1973.

Published by

admin

Rieks op den Akker was onderzoeker en docent kunstmatige intelligentie, wiskunde en informatica aan de Universiteit Twente. Hij is gepensioneerd.

Leave a Reply