KI-Tools, die Bilder und Texte quasi aus dem Nichts erschaffen, sind das Thema der Stunde, bekannte Vertreter sind ChatGPT und DALL-E. In beiden hat Microsoft seine Finger im Spiel. Nun kommt eine weitere KI hinzu und die ist die wohl unheimlichste: Denn Vall-E imitiert Stimmen.
Künstliche Intelligenzen waren lange Zeit bzw. oftmals nicht viel mehr als ein leeres Schlagwort, um relativ banales Maschinenlernen zu beschreiben. Letzteres ist zwar immer noch zentral, die Ergebnisse sind aber mittlerweile so beeindruckend, dass das Wort Intelligenz langsam tatsächlich zutreffen kann. Das zeigen die OpenAI-Lösungen ChatGPT und DALL-E nur zu gut.
Microsoft, das zu den Geldgebern von OpenAI gehört, hat (direkt) auch seine eigene KI-Forschung und hat auch für diese einen Namen gewählt, der an DALL-E angelehnt ist: VALL-E. Dabei handelt es sich um eine Anwendung, die in der Lage ist, Stimmen nachzuahmen. Das Besondere dabei ist, dass VALL-E ein gerade einmal drei Sekunden langes Sample erfordert, um die menschliche Stimme bzw. eine bestimmte Person glaubhaft nachahmen zu können.
Auch für Tonfall und Emotionen
Wie AITopics berichtet (via Windows Central) wurde das Tool mit 60.000 Stunden an englischen Sprachdaten trainiert. Eine Besonderheit ist dabei, dass die KI-Stimme in der Lage ist, den Tonfall und die Emotionen eines Sprechers nachzuahmen. In einer dazugehörigen Studie haben Forscher der Cornell University mehrere Stimmen bzw. Sätze generiert, diese sind via GitHub auch zu hören.
Die Qualität ist allerdings schwankend: Manche Aufnahmen klingen überzeugend und natürlich, andere hingegen eher blechern und künstlich. Allerdings sollte man hier vor allem bedenken, dass die Ausgangslage eben ein drei Sekunden langes Sample war. Je mehr man die KI "füttert", desto besser wird auch das Ergebnis, zudem lernt auch die KI selbst noch dazu.
VALL-E ist derzeit noch nicht öffentlich verfügbar, man kann also nicht selbst ausprobieren, wie gut bzw. überzeugend das Tool arbeitet - das ist aber vielleicht auch gut so, denn man kann erahnen, welchen Schaden ein solches Tool sowie die dazugehörigen Fakes anrichten könnten.