Künstliche Intelligenz kann viel und wird auch noch viel können. Neben der Generierung von Text hat vor allem die Audioerstellung insbesondere „Text-to-Speech“ viel Aufmerksamkeit erfahren. Einfach ein paar Wörter in den Computer tippen und schon spricht eine berühmte Persönlichkeit diese in der gewünschten Betonung nach. Eines der bekanntesten Unternehmen auf den Gebiet „ElevenLabs“ hat nun bekannt gegeben, das man die Beta-Phase verlassen hat und nun „live on air“ ist.
Mit Hilfe eines neuen, selbst entwickelten KI-Modells ist ElevenLabs nach eigenen Angaben nun in der Lage 30 Sprachen automatisch zu erkennen und Sprachen zu erzeugen. Zu den unterstützten Sprachen gehören nun Chinesisch, Koreanisch, Niederländisch, Türkisch, Schwedisch, Indonesisch, Philippinisch, Japanisch, Ukrainisch, Griechisch, Tschechisch, Finnisch, Rumänisch, Dänisch, Bulgarisch, Malaiisch, Slowakisch, Kroatisch, klassisches Arabisch und Tamilisch. Sie kommen zu den bereits verfügbaren Sprachen Englisch, Polnisch, Deutsch, Spanisch, Französisch, Italienisch, Hindi und Portugiesisch hinzu.
In Kombination mit dem neuen Modell könnten Nutzer zudem das Voice-Cloning-Tool der Plattform nutzen, um in fast 30 Sprachen zu sprechen, ohne vorher Text eingeben zu müssen. ElevenLabs ging Ende Januar 2023 als Betaversion an den Start und manche Stimmen auf der Seite, die man in der Free-Version generieren kann klingen noch recht blechernd.
Was für Content Creator einen Mehrwert bietet, birgt auf der anderen Seite natürlich auch Gefahren. Stichwort: Deep Fake. Als Reaktion darauf kündigte ElevenLabs an, eine Reihe neuer Schutzmaßnahmen einzuführen, wie die Beschränkung des Klonens von Stimmen auf bezahlte Konten und die Bereitstellung eines neuen KI-Erkennungstools. Aber auch Synchronsprecher fürchten um ihre Arbeitsplätze. Bis das aber soweit ist werden noch ein paar Jahre ins Land gehen. Aber klar: Es hätte was Robert de Niro mit seiner echten Stimme in Deutsch zu hören.