Adobe VoCo – Voice Conversion – Digitale Diktiergeräte

Das amerikanische Softwarehaus Adobe ist den meisten als Anbieter der Bildbearbeitungssoftware Photoshop bekannt. Allem Anschein nach hat man aber auch ein Projekt für Audio in der Timeline, das der Konzern auf der Hausmesse MAX in San Diego in beeindruckender Manier präsentiert hat. Adobe VoCo („Voice Conversion“), geplant als Bestandteil der Adobe Creative Suite, ist eine Software zur Manipulation von Audiodateien. Das Programm wird mit nur 20 Minuten Audiomaterial eines Sprechers angelernt und ist dann in der Lage, Texte in dessen Tonfall und Stimmlage wiederzugeben. Dies umschließt ausdrücklich auch im Trainingsmaterial nicht vorkommende Begriffe. Die Manipulation erfolgt dabei per Tastatureingabe.

Im Video Adobe-lässt Adobe-Entwickler Zeyu Jin den Satz „Ich habe meine Hunde und meine Frau geküsst“ vorlesen. Nachdem er im Texteditor eine Veränderung vornimmt, ertönt in identischer Stimmlage und mit natürlicher Betonung „Ich habe Jordan dreimal geküsst“ aus den Lautsprechern. Die Spracherkennung im Hintergrund wird damit praktisch zum Nebenschauplatz: Die Audioaufnahme beinhaltet praktisch den erkannten Text einer Aufnahme, der sich dann mit einem Texteditor schneiden, anfügen, umstellen, neu formulieren oder ergänzen lässt. Per Knopfdruck gibt VoCo die manipulierte Passage dann mit der Stimme des Sprechers wieder.

Anwendungsmöglichkeiten sind vielfältig: Versprecher, Füllworte oder „Ähs“ lassen sich einfach per Tastatur aus Mitschnitten entfernen, Jahreszahlen verbessern oder Podcasts veröffentlichen, ganz ohne sie einlesen zu müssen. Vorbei die Zeiten von mechanisch dahinscheppernden Stimmen der herkömmlichen Text-to-Speech Software. Der Hersteller spricht davon, dass das in Entwicklung befindliche Tool mit einer Art Wasserzeichen versehen wird, um Manipulationen nachweisen zu können. Ansonsten könnte der geneigte Anwender Politikern oder Sportlern alles mögliche in den Mund legen.

Ich finde die Demonstration durchaus beeindruckend und mir fallen eine ganze Reihe von Anwendungsfällen ein, die mit derzeitigen technischen Möglichkeiten nur unzureichend abzubilden sind. Allein das Herauslöschen eines Wortes aus der Mitte einer Sprachaufnahme sollte sich mit VoCo um ein Vielfaches schneller erledigen lassen, als mit den üblichen Audiobearbeitungsprogrammen. Die Erfahrung mit Spracherkennungssoftware zeigt aber auch, dass es noch eine Weile dauern könnte, bis VoCo – zumal in Deutsch – eine nahezu fehlerfreie Erkennungsgenauigkeit bietet. Bereits ab dem Start hat man aber ein Werkzeug zur Hand, dass bisherige „Vorlese-Software“ in den Schatten stellt.