AI-Stimmen sind noch lange nicht soweit
Den Grund dafür glaubt Armin Hierstetter, Inhaber der Casting-Plattform bodalgo.com, zu kennen: "Wenn man’s überspitzt ausdrücken will, ist AI ein Etikettenschwindel. Mit ‚Intelligenz‘ hat das alles wenig zu tun. Die trefferende Vokabel ist wohl eher ‚machine learning’". Denn die gängigen Sprachmodelle, so Hierstetter, besitzen keine echte Intelligenz, vielmehr sind sie mit Tausenden von Stunden Audiomaterial darauf trainiert, eine Stimme zu simulieren. "Und das klappt auch schon recht gut", gibt er zu. Das Problem aber liege in der Diktion und der Tonalität, also der Interpretation des gesprochenen Textes. Soll heißen: AI besitzt zwar heute die Fähigkeit, einen Text vorzulesen, kann aber Betonungen und Emotionen nicht dem Inhalt anpassen. AI-Stimmen transportieren so nur den reinen Inhalt eines Textes, können diesen aber nicht mit passender Betonung und Gefühlen anreichern. Im Ergebnis klingt das computer-generierte Audio monoton und – künstlich.
"Das liegt vor allem daran, dass der AI echtes Textverständnis fehlt, mehr noch: AI hat keine persönlichen Erfahrungen, die Einfluss auf die Interpretation des Textes haben." Dies aber sei essentiell, wie Hierstetter in einem Beispiel erklärt: "Nehmen Sie den einfachen Satz ‚Wie siehst du denn aus?‘, etwa in der Szene eines Hörspiels. Dieser Satz kann – abhängig vom Kontext – verschiedenste Emotionen erfordern, zum Beispiel Empörung: Der Protagonist erscheint zum Opernabend in Shorts und Adiletten. Oder er drückt Sorge aus, wenn eben genannter Darsteller blass und mit blutunterlaufenen Augen vor der Oper steht."
Der sogenannte "Subtext", also die indirekte Bedeutung eines Textes, die sich erst durch die richtige Betonung erschließt, ist für AI derzei nicht darstellbar. "Es ist selbst für gelernte Schauspieler und Sprecher nicht immer einfach, den Subtext auf Anhieb durch Diktion und Emotion überzeugend zu transportieren – dann hilft der Regisseur weiter."
Apropos Regisseur: Hierstetter, selbst seit 20 Jahren im Sprecher-Business unterwegs, sieht bei AI-Stimmen eine weitere Herausforderung: Regie-Anweisungen helfen im Studio, zum Beispiel die Tonalität eines Werbespots in die gewünschte Richtung zu lenken. "Und jetzt stellen Sie sich vor, Sie sagen einer AI-Stimme: ‚Ja, das war schon ganz schön. Jetzt aber noch mit ein bisschen ‚roter Teppich‘ in der Stimme. Sei etwas abgehoben, aber immer noch nahbar. Ach ja, und den Abbinder brauchen wir eine Sekunde kürzer, damit er ins Motiv passt."
Sieht man sich jedoch die Geschwindigkeit an, mit der sich AI-Stimmen weiterentwickeln, sollte man meinen, dass diese Herausforderungen schon bald gelöst sind. Hierstetter lässt auch diesen Einwand nur bedingt gelten: "Natürlich wird es Entwicklung geben, gar keine Frage. Die Stimmen selbst klingen menschlicher, betonen aber weiterhin falsch – oder gar nicht. Besonders bei längeren Texten klingt das schnell monoton und künstlich."
Laut Hierstetter droht noch von anderer Seite Ungemach. Anbieter haben ihre Sprachmodelle teilweise mit Audiomaterial trainiert, an dem sie keine ausreichenden Verwertungsrechte hatten. In Amerika gab es daher Fälle wie den von Bev Standing, einer kanadischen Sprecherin, deren Stimme plötzlich in zahllosen TikTok-Videos auftauchte. Standing verklagte daraufhin TikTok in den USA – mit Erfolg. "Es kann also zu Problemen führen, wenn Sie eine AI-Stimme verwenden, bei der sich später herausstellt, dass diese mit Hilfe von Material geschaffen wurde, an dem der Anbieter keine Rechte hatte."
Hierstetter betreibt seit 15 Jahren die Online-Casting-Plattform bodalgo.com, auf der Firmen die passende Stimme für Projekte wie Werbung, eLearning, Image-Filme etc. finden. Knapp 60.000 Castings hat die Plattform mittlerweile abgewickelt. Ist AI ein Thema für die Zukunft der Plattform? "Nein", sagt Hierstetter, und ergänzt: "Zumindest nicht, wenn es um Stimmen geht. Es gibt aber bereits heute Bereiche, in denen wir AI einsetzen, zum Beispiel bei bodalgoScripta. AI-Transkription von Videos und Audios funktioniert schon heute absolut hervorragend. AI-Stimmen jedoch sehe ich auf Jahre nicht als Konkurrenz zu professionellen Sprechern."
Diese Meinung teilen offenbar auch Produktionsstudios, die auf künstliche Stimmen in aller Regel verzichten. "Es gibt aber interessante Ausnahmen", ergänzt Hierstetter, "zuletzt bei den neuen Folgen von Pumuckl." Dort wurde der beliebte Kobold nicht mit einer künstlichen Stimme ausgestattet, sondern die Stimme des Synchronsprechers Maxi Schafroth mittels AI so verändert, dass er wie der 2005 verstorbene Hans Clarin klingt, der Pumuckl 30 Jahre lang seine Stimme lieh.
bodalgo.com ist eine mehrfach preisgekrönte Online-Casting-Website, die 2008 von Armin Hierstetter gegründet wurde. bodalgo ermöglicht es Kunden, die perfekte Stimme für Audio-/Videoproduktionen zu finden. Als kostenloser Service für Kunden macht bodalgo diesen Prozess effizient und einfach. bodalgo verfügt über mehr als 13.000 professionelle Sprecherinnen und Sprecher in mehr als 80 Sprachen und hat bereits knapp 60.000 Projekten geholfen, die perfekte Stimme zu finden.
Im Jahr 2022 wurde bodalgo zum sechsten Mal in Folge mit dem One Voice Award in der Kategorie "Best Voice Job Web Site of the Year" ausgezeichnet.
bodalgo
Güllstraße 4
80336 München
Telefon: +49 (89) 767582-42
https://www.bodalgo.com
Telefon: +49 (89) 767582-42
Fax: +49 (89) 638596-05
E-Mail: armin@bodalgo.com