Mit einer neuen, von der University of Washington verfeinerten Technologie kann man Personen in Videos Sätze sprechen lassen, die sie so nie sagten. Dennoch sieht das Ganze sehr realistisch aus. Wie die Forscher in einem Online-Artikel beschreiben, sind Lippenbewegungen besonders ausschlaggebend dafür, ob eine Videoaufnahme einer sprechenden Person als glaubwürdig gilt. Bisherige Techniken hatten hier einige Defizite aufzuweisen. Die Forscher wollten das Problem auf eigene Weise lösen.
Obama als prominentes Beispiel
Sie verwendeten den ehemaligen US-Präsidenten Barack Obama als Versuchskaninchen. Von Obama existiert eine Vielzahl an offen zugänglichen Videoaufnahmen. Ton- und Videospuren fütterten sie einem neuronalen Netzwerk, also einem lernenden Computerprogramm. Dieses lernte, wie sich bestimmte Laute in Gesichtsbewegungen übersetzen lassen. Anschließend wurden Original-Tonaufnahmen von Obama herangezogen, um ein Videobild mit einem sprechenden Obama-Gesicht zu erzeugen. Das Resultat ist verblüffend. Bis auf kleinere, eher unnatürlich aussehende Bewegungen in Sprechpausen, geht die erzeugte Ansprache weitgehend als realistisch durch.
Soll bei Video-Chats helfen
Mit realistischen Videobildern zu Tonaufnahmen wollen die US-Forscher das so genannte „Uncanny Valley“ überbrücken, also den Bereich, den Außenstehende als unnatürlich wahrnehmen. Ihre Technik soll in Zukunft etwa bei Videotelefonaten zum Einsatz kommen, in denen die Videoübertragung durch Verbindungsprobleme gestört wird. Personen könnten dann am Bildschirm scheinbar normal weitersprechen, obwohl temporär kein echtes Videobild vorhanden ist.
Großes kriminelles Potenzial
Für ihre Experimente zogen die Forscher absichtlich Tonaufnahmen von Obama heran, um sie Obama selbst in einem anderen visuellen Kontext in den Mund zu legen. Sie wollten damit absichtlich nicht das betrügerische Potenzial aufzeigen, das durch ihre Technologie entsteht. So könnten etwa Videos entstehen, die Personen Dinge sagen lassen, die sie tatsächlich nie von sich gaben. Der Realismus der Mundbewegungen könnte künftig auch Skeptiker von Fake-Videos überzeugen.