Postfaktisch 2.0 – Deep Fakes

Vielleicht sind ja einige schon mal über dieses Video des Youtubers Vocal Synthesis gestolpert, in dem er verschiedene ehemalige US-Präsidenten den NWA-Song „Fuck The Police“ rappen lässt. Hier werden nicht etwa echte Ton-Fetzen aneinandergereiht, sondern eine Software wurde darauf trainiert, Stimme, Tonfall usw. der Betreffenden so perfekt wie derzeit möglich nachzuahmen.
Im Audio-Bereich ist das eines der eindrucksvolleren Beispiel für das, was als „synthetic media“, also künstliche Aufzeichnungen, bezeichnet und die Beurteilung für Realität und Fakten auf den Kopf stellen wird.

Synthetische Medien

Zunächst einmal sind diese künstlichen Aufzeichnungen, egal ob Bild, Film oder eben Ton, nichts verwerfliches, sondern einfach nur der logische nächste technologische Schritt, der die Unterhaltungsindustrie komplett umkrempeln wird. In wenigen Jahren wird man auf echte Schauspieler weitgehend verzichten, wenn man das möchte. Es wird möglich sein, längst verstorbene Stars wieder „auferstehen zu lassen“ und in neue Produktionen einzusetzen, egal ob Film oder Musik. (Auch künstliche Romane, bei denen KI den Schreibstil bekannter Autoren simuliert, werden vermutlich früher oder später angeboten werden.)

Noch ist die Technologie nicht perfekt, aber die Entwicklung schreitet in riesigen Schritten voran. Die Autorin Nina Schick hat in ihrem Buch „Deep Fakes“ das Beispiel des Films „The Irishman“ (2019) genutzt. Die Effekte, mit denen die Darsteller De Niro, Al Pacino und und Joe Pesci für Szenen, die in der Vergangenheit spielten digital verjüngt wurden, wurden als wenig glaubwürdig kritisiert. Nur wenige Monate später konnten Youtuber allerdings mit einer frei verfügbaren Software ein täuschend natürlich wirkendes Ergebnis erzielen.

Manipulation ist nicht Neues

Die Idee, die Bevölkerung durch Fehlinformation zu täuschen und zu beeinflussen ist so alt, wie die Menschheit. Schon immer wurde gelogen. Der Adel erfand ganze Generationen und angebliche Heldentaten, um die eigene Dynastie aufzuwerten oder Ansprüche auf Titel oder Ländereien zu begründen. Unliebsame Familienmitglieder wurden aus der Geschichte getilgt. Eine der bekanntesten Fälschungen ist die „Konstantinische Schenkung“, mit der die katholische Kirche im Mittelalter ihren Führungsanspruch in geistlichen Fragen und gewaltige Besitzansprüche auf Land rechtfertigte.

Mit der technischen Entwicklung wurden auch die Fälschungen raffinierter. Legendäre sind zum Beispiel die aus Fotos heraus-retuschiert Gegner Lenins und Stalins in der frühen Sowjetunion. Für die Augen der damaligen Zeitgenossen, die bei der (ja auch noch recht jungen Fotografie) gewohnt waren, ihren Augen zu trauen, muss das verwirrend gewesen sein.

Ich weiß doch, was ich sehe?

Eine vergleichbare Entwicklung steht auch uns unmittelbar bevor. Bilder können bereits heute so perfekt manipuliert werden, dass es zumindest für das menschliche Auge nicht mehr zu erkennen ist. Dabei können sowohl Bilder von existierenden Personen täuschend echt in andere Umgebungen verlegt, als auch vollkommen neue Gesichter geschaffen werden.

Auch Tonaufnahmen können täuschend echt erstellt werden. Dafür müssen keine Aussagen aus dem Zusammenhang gerissen oder zusammengeschnitten werden, sondern wenn man die Software lange genug mit Originalaufnahmen einer Sprecherin oder eines Sprechers trainiert hat, kann man „neue Aussagen“ aufnehmen, die diese Person möglicherweise nie von sich gegeben hat oder geben würde. Und auch in der Kombination aus Bild und Ton wird die Entwicklung schnell voranschreiten. Wo der Film Avatar vor einigen Jahren noch bewusst nicht zu menschenähnliche Figuren nutze, werden selbst relative Laien in wenigen Jahren mit frei zugänglichen Programmen erstaunliche Ergebnisse erzielen.

Die Auswirkungen auf unsere Wahrnehmung der Realität wird dadurch erschüttert werden. Wir sind darauf konditioniert, zu glauben, was wir mit eigenen Augen sehen und mit unseren eigenen Ohren hören. Beides wird in naher Zukunft kein sicherer Indikator mehr sein, zumindest so weit es Aufzeichnungen betrifft.

Unzulängliche Medienlandschaft

Wir werden noch mehr als heute darauf angewiesen sein, dass uns andere Instanzen sagen, was die Fakten sind. Leider ist unsere Medienlandschaft und noch mehr die Medienlandschaft in vielen anderen Ländern schlecht darauf vorbereitet, diese Aufgabe zu übernehmen. Wir haben nicht nur Medien, die es mit der Überprüfung von Fakten nicht all zu genau nehmen, sondern auch Medien(konzerne), deren ganzes Geschäftsmodell die Desinformation und das Verbreiten von mindestens grob verzerrten Behauptungen ist.

Diese Redaktionen werden kaum ihre Wahrheitsliebe erkennen, wenn es nicht nur darum geht, einzelne Teilsätze aufzublasen, sondern man der Zielperson ganze Sätze passgenau in den Mund legen kann. Die bereits heute anzutreffende Spaltung, in der sich jeder politische Stamm in seiner Echokammer verschanzt, wird noch zunehmen. Wer heute für den faktenbasierten Diskurs verloren geht, hat noch weniger Chancen, in die Realität zurück zu finden.

Es gibt (ein wenig) Hoffnung

Auch wenn menschliche Augen und Ohren schon relativ leicht getäuscht werden können, kann Software Manipulationen noch relativ gut erkennen. Aber mit jedem Kniff, mit dem KI einen Deep Fake erkennt, wird die nächste Softwaregeneration für noch bessere Performance trainiert werden. Und (nicht zuletzt, weil es den Herstellern von synthetic media nicht nur um Betrug und Täuschung geht) es wird deutlich mehr Geld in die Herstellung künstlicher Medien investiert, als in ihre Enttarnung. Es wird ein endloses Rennen zwischen Hase und Igel werden und sie Sollbruchstelle ist das Vertrauen in redliche Instanzen, die ehrlich zwischen echten Quellen und Fälschungen unterscheiden und uns entsprechend wahrheitsgemäß informieren.

Hinterlasse einen Kommentar