Deepfakes tauchen vermehrt und in ganz unterschiedlichen Kontexten in unserem Alltag auf. Was Deepfakes wirklich sind, warum sie gefährlich und was für ihre Bekämpfung getan werden kann, erklärt Stefanie Valdés-Scott in diesem Blogbeitrag.

Stell dir vor, du hast einen Videocall und findest später heraus, dass du gar nicht mit der Person gesprochen hast, mit der du geglaubt hast zu sprechen. Klingt erst mal surreal, ist aber niederländischen Politiker:innen im April 2021 genau so passiert. Ein Unbekannter, der durch digitale Manipulation wie der Nawalny-Vertraute Leonid Wolkow aussah, gab sich in einem Videoanruf als dieser aus.

Im Februar 2021 gingen diverse TikTok-Videos des belgischen Grafikers Chris Ume viral. Unter dem TikTok-Account @deeptomcruise wurden Videos hochgeladen und millionenfach angesehen, die Tom Cruise beim Golfspielen, beim Münzentrick, auf Reisen oder beim Gitarrespielen zeigen – doch tun sie das wirklich? Nein, nicht Tom Cruise ist in diesen Videos zu sehen, sondern die Reihe von Clips hat Chris Ume zu Hause mit seinem Computer erstellt – und damit jede öffentlich verfügbare Deepfake-Erkennungstechnologie getäuscht.

Deepfakes auf dem Vormarsch

Deepfakes tauchen also bereits heute vermehrt und in ganz unterschiedlichen Kontexten in unserem Alltag auf. Der Begriff setzt sich zusammen aus den Worten „Deep Learning“ und „Fake“, also tiefgehendes Lernen und gezielte Fälschung. Deepfakes sind vollständig von künstlicher Intelligenz (KI) generierte oder mithilfe von KI teils manipulierte Videos, Fotos oder Audiodateien, erschaffen mit der Intention zu täuschen. Deepfakes werden häufig mutwillig als Desinformation oder als Fehlinformation verwendet. Das Ergebnis wirkt – aus technischer Sicht im „besten Fall“ – lebensecht und ist von ungeschulten Augen und Ohren nicht als Fälschung zu erkennen. Dies ist besonders fatal, da wir dazu neigen zu glauben, Video- oder Audiomaterial fange genau das ein, was wir mit unseren Augen gesehen oder mit unseren Ohren gehört haben – dass es also wie eine Erweiterung unserer eigenen Wahrnehmung funktioniert.

Die ersten Deepfakes, damals noch von sehr mäßiger Qualität, tauchten vor rund fünf Jahren auf. Seitdem hat sich die Technologie enorm weiterentwickelt. Während das Konzept der Desinformationen schon seit Jahrhunderten besteht, nutzen diejenigen, die sie verbreiten, jetzt soziale Medien und einfach zu bedienende Bearbeitungstechnologien für Fotos, Videos und Audios, um dies in alarmierendem Tempo immer weiter zu professionalisieren. Allein im Jahr 2020 haben Desinformationen das Vertrauen in Wahlen untergraben und tödliche Unwahrheiten über die vermeintliche Unwirksamkeit des Covid-19-Impfstoffs verbreitet.

Es wird geschätzt, dass 93 Prozent der derzeit produzierten Deepfakes Pornografie sind, aber die Technologie entwickelt sich immer schneller aus den dunklen Ecken des Web in den Mainstream. Mit der Weiterentwicklung von KI wird es noch einfacher, alle Arten von Medien zu manipulieren. Nina Schick, Autorin von „Deepfakes: The Coming Infocalypse“, glaubt, dass YouTuber:innen bis zum Ende des Jahrzehnts in der Lage sein werden, Inhalte zu produzieren, wie es derzeit nur Hollywood-Studios möglich ist. Chris Ume hat mit seinen Tom-Cruise-Videos bereits bewiesen, dass dies möglich ist – und wir befinden uns längst noch nicht am Ende des Jahrzehnts. Wenn Sehen und Hören aber nicht mehr gleichzusetzen ist mit Echtheit und Wahrheit – wie können wir Bild-, Audio- und Videomaterial künftig überhaupt noch vertrauen?

Ansätze im Kampf gegen Desinformationen

Die Lösung des Problems unauthentischer audiovisueller Inhalte und der dadurch verursachten Vertrauenserosion wird auf vier Bereichen beruhen (siehe Abbildung 1): Aufklärung sowie Aus- und Weiterbildung, Gesetzgebung/Regulierung, Erkennung von Deepfakes und Zuordnung von Herkunftsdaten bzw. Provenienz.

Es muss in breit angelegten Kampagnen darüber aufgeklärt werden, was Deepfakes sind und welche Möglichkeiten Verbraucher:innen haben, Desinformationen im Netz zu identifizieren bzw. Online-Quellen kritisch zu prüfen. Besonders bei der politischen Bildung sollte dieser Aspekt entscheidend sein. Neben Kampagnen zur allgemeinen Medienkompetenz müssen auch Journalist:innen fortlaufend geschult und weitergebildet werden.

Die Verbreitung von Desinformationen ist nichts Geringeres als eine echte Gefahr für die Demokratie. Daher nehmen sich immer mehr Regierungen weltweit des Themas „Desinformationen“ an und überlegen, wie eine Gesetzgebung gegen Desinformationen aussehen könnte.

Drei Beispiele: In den USA hat die National Security Commission on Artificial Intelligence zu Beginn des Jahres 2021 in ihrem Bericht empfohlen, eine Taskforce einzurichten, um zu untersuchen, wie die Entwicklung und Einführung von Standards für die Herkunft digitaler Inhalte bei Desinformationsproblemen helfen könnte. Im Juli 2021 wurde der überparteiliche Deepfake Task Force Act verabschiedet, der die National Deepfake and Digital Provenance Task Force einrichtet. In Australien gibt es seit Mai 2021 einen Verhaltenskodex für Desinformation und Fehlinformation. Dieser freiwillige Kodex wurde vom australischen Digitalindustrieverband DIGI entworfen und entspricht der Forderung der Regierung nach einem Rahmenwerk zur Verringerung des Risikos von Online-Fehl- und OnlineDesinformationen. In der Europäischen Union gibt es mit dem Verhaltenskodex gegen Desinformation und dem Europäischen Aktionsplan für Demokratie ebenfalls zwei Initiativen, die Desinformationen im Netz bekämpfen sollen.

Bemühungen (der Industrie) konzentrierten sich bisher hauptsächlich auf den Einsatz künstlicher Intelligenz oder maschineller Lerntechnologien, um Deepfakes und andere veränderte Medien zu erkennen. Da aber irreführende Inhalte immer professioneller erstellt werden, können Erkennungstechnologien nur schwer damit Schritt halten.

Wenn wir nicht hinreichend beweisen können, was Fake ist, lasst uns beweisen, was echt ist!

Ohne wirksame Erkennungstools sollten wir den Fokus auf ein System der „digitalen Herkunft“ oder Provenienz verlagern, bei dem Bilder, Videos und Audios mit einem digitalen, manipulationssicheren Wasserzeichen authentifiziert werden, das ihre Herkunft garantiert. Provenienz bezieht sich hier auf grundlegende Fakten über einen digitalen Inhalt: Wer hat ihn wie, wann und wo erstellt und wie bearbeitet? Die Weitergabe dieser Informationen verbessert die Transparenz dessen, was wir online in Foto-, Video- und Audiodateien sehen und hören. Befürworter:innen dieses Systems argumentieren, dass wir, wenn wir nicht hinreichend beweisen können, was gefälscht ist, versuchen sollten, die Echtheit legitimer Medien zu beweisen, indem wir sie ab ihrer Erstellung und über den gesamten Zeitraum der Bearbeitung bis hin zur Veröffentlichung authentifizieren (siehe Abbildung 2).

Eine Initiative von inzwischen über 750 Technologieunternehmen, Verlagen, Thinktanks, Kreativen, Journalist:innen, Wissenschaftler:innen und vielen anderen ist überzeugt, dass die Zuordnung von Herkunftsdaten langfristig gesehen die Kernkomponente im Kampf gegen Desinformationen ist. Die Content Authenticity Initiative (CAI) wurde im November 2019 von Adobe in Zusammenarbeit mit der New York Times Company und Twitter branchenübergreifend gegründet. Seitdem haben sich weitere namenhafte Unternehmen wie AFP, BBC, CBC, dpa, Microsoft, Qualcomm, USA Today, Washington Post und Witness.org der Initiative angeschlossen. Ziel der CAI ist, die Schaffung eines Open-Source-Industriestandards für die Zuordnung von Herkunftsdaten zu unterstützen, den jede:r nutzen kann. Die Coalition for Content Provenance and Authenticity (C2PA) ist die Organisation, die den offenen Standard erarbeitet. Im Januar 2022 wurde die V1-Version der Spezifikationen veröffentlicht. Durch die Zuordnung manipulationssicherer Herkunftsdaten soll das Vertrauen in Inhalte gestärkt werden. So wie man etwa ein Buch öffnet und Informationen über den Autor oder die Autorin finden kann, wo und wann es veröffentlicht und wie oft es bearbeitet wurde, wird diese Art von Informationen für digitale Inhalte zur Verfügung gestellt, um anzuzeigen, ob die Bild-, Video- oder Audiodatei authentisch ist oder nicht. Der offene Standard und die Provenienz-Technologie sind Opt-in-Verfahren und bei jeder Nutzung anpassbar. Nur wer sie nutzen möchte, wird dies tun und kann in jedem Einzelfall entscheiden, welche Metadaten konkret gespeichert werden sollen. Die Provenienz-Technologie passt die Inhalte weder an noch beurteilt sie diese.

Durch die Zuordnung von Herkunftsdaten bei digitalen Medien profitieren alle:

  • Die allgemeine Öffentlichkeit, indem das Vertrauen von Nutzer:innen in das, was sie online sehen und hören, gestärkt wird. Sie setzen sich kritischer mit Online-Inhalten auseinander und idealerweise davon abgehalten, manipulierte Medien oder visuelle Desinformationen zu teilen.
  • Technologie- und Social-Media-Plattformen können leichter Korrekturmaßnahmen gegen mutwillig manipulierte Medien ergreifen, um das Vertrauen in ihr Informationsökosystem zurückzugewinnen.
  • Ersteller:innen von Inhalten erhalten eine Möglichkeit, ihre Arbeit fälschungssicher zu authentifizieren und online zu teilen.
  • Abläufe in Wirtschaft und Verwaltung können effizienter gestaltet werden und es lassen sich bessere Entscheidungen treffen.
  • Regierungsbeamte und Politiker:innen können mit dieser Technologie sicher sein, dass ihre Worte und Taten in der Öffentlichkeit korrekt wiedergegeben werden.

Es ist ein langer Weg – und alle sind gefordert

KI erleichtert oder verschönert uns in vielen Bereichen schon heute unseren Alltag. Wichtig ist, auch für die negativen Auswirkungen der KI-Nutzung gewappnet zu sein. In einer immer komplexer werdenden Welt, in der Deepfakes und Desinformation feste Bestandteile unseres Alltags sind, ist das gesamte Ökosystem aus Verbraucher:innen, Industrie, Politik und Wissenschaft gefragt und gefordert, gemeinsam das Vertrauen in Medien und Politik zu erhalten bzw. wiederherzustellen.


Der Beitrag von Stefanie Valdés-Scott ist im Sammelband Update Wirtschaft für Gesellschaft 32 Vordenker:innen aus der Praxis geben Anregungen für besseres Wirtschaften im Verlag der Bertelsmann Stiftung erschienen. Stefanie Valdés-Scott ist eine von 32 Voices of Economic Transformation, eine Gruppe junger (im Denken und/oder Lebensjahren) Führungskräfte der Wirtschaft, die ihre Ideen für den gesellschaftlichen Wandel einbringen. Alle Beiträge sind CC BY-SA 4.0 lizensiert erschienen und werden u.a. auf diesem und anderen Blogs der Bertelsmann Stiftung veröffentlicht. Update Wirtschaft für Gesellschaft: Bertelsmann Stiftung (bertelsmann-stiftung.de)