Im Mittelpunkt der FINEST AUDIO SHOW Vienna am 23. und 24. November 2024 in Wien steht die Leidenschaft für HiFi-Technik, Musikwiedergabe und den perfekten Klang.
>> Mehr erfahren>> Alle anzeigenRevox präsentiert die neue Revox B77 MK III und zugleich seine neue, eigene Revox Analog Master Tapes Collection. Beides gefertigt im Revox KLANGWERK in Villingen für ein perfektes Zusammenspiel.
>> Mehr erfahren>> Alle anzeigenMarke:
Voice-to-Text-Revolution: Der rasante Fortschritt in der künstlichen Intelligenz geht weiter
Künstliche Intelligenz lässt sich nicht nur auf Texte und Bilder übertragen, sondern auch auf Stimmen. Schon seit vielen Jahrzehnten wird an Umwandlung von Stimmen zu Text gearbeitet, um Scripte und Untertitel einfacher einzufügen und diese möglichst fehlerfrei zu nutzen.
Stolpersteine gibt es immer, vor allem bei unverständlichen Audiospuren, Dialekten oder schlechten Aufnahmen. Doch KI ist mittlerweile so sehr auf dem Vormarsch, dass sich bald selbst komplizierte Audio- und Videoaufnahmen problemlos zu Text verarbeiten lassen.
Für die Älteren unter uns gehören diese Lautsprecher zu den ersten jugendlichen Audiowunschträumen, wie zum Beispiel das Klipschorn oder die Electro Voice Sentry III. Für alle anderen könnte dieser besondere Lautsprecher eine echte Überraschung werden.
>> Mehr erfahren>> Alle anzeigenWozu dient die Umwandlung von Audio zu Text?
Die Umwandlung von Audioaufnahmen oder Videos zu Text ist wichtig, um Informationen besser und einfacher abrufen zu können. Es hat also vor allem funktionelle Gründe, die sich aber auf viele Bereiche anwenden lassen. Transkripte sind in vielen Bereichen nötig, um sich nicht immer wieder die Audiodatei anhören zu müssen und Infos einfacher an andere Personen weiterzugeben. Worte lassen sich einfacher verfolgen und wichtige Punkte können so besser aufgenommen und vor allem wiederholt werden, ohne ständig die Audioaufnahme zurückspulen zu müssen.
Mit einer Textausgabe werden Audioaufnahmen außerdem zugänglicher für bestimmte Bevölkerungsgruppen, zum Beispiel schwerhörige Menschen, die sich nicht mehr auf ihr Gehör verlassen können. Transkripte helfen dabei, Inhalte auch an diese Leute weiterzugeben.
Audio zu Text Programme vereinfachen diesen Prozess ungemein. Während man sich früher selbst um das Transkribieren kümmern musste, kann das mittlerweile eine künstliche Intelligenz übernehmen. Das Ganze funktioniert im Prinzip wie ein Diktat, nur eben komplett automatisiert und hoffentlich ohne menschliche Fehler, die sich womöglich einschleichen. Sowohl bereits aufgenommene Aufnahmen als auch Live-Übertragungen können mithilfe solcher Programme in Textform umgewandelt werden.
Doch welche Fortschritte wurden auf diesem Feld genau gemacht? Und welche Rolle spielt die künstliche Intelligenz bei der Umsetzung von Voice-to-Text-Programmen?
Fehlerfreie Ausgabe
Rechtschreibung und Grammatik sind für einen menschlichen Transkriptor wichtige Grundbausteine, um Texte auch richtig zu übertragen. Doch auch hier gibt es immer wieder Lücken, die sich auftun und dafür sorgen, dass Texte nicht richtig interpretiert werden. Computer und künstliche Intelligenz sollten damit jedoch weniger Probleme haben, immerhin sind diese darauf trainiert, Fehler zu finden und diese zu korrigieren. Jedes Schreibprogramm verfügt über die Funktionen, die natürlich auch bei Audio-to-Text angewendet werden. Somit werden grobe Fehler vermieden.
KI ist aber auch nicht unfehlbar, was einem sicher von der Texterstellung in Word oder einem anderen Schreibprogramm bekannt ist. Sie kann schlichtweg nicht alle Kontexte und grammatischen Regeln kennen, geschweige denn unbekannte Begriffe, Dialekte oder Fantasienamen richtig zuordnen. Aber auch in diesem Feld tut sich einiges, die Technologie ist auf dem Vormarsch und künstliche Intelligenz wird anhand von früheren Texten deutlich schlauer. Es ist also nur eine Frage der Zeit, bis sie Texte fehlerfrei aus Audioaufnahmen extrahieren und in Textform umsetzen kann.
Textart und andere Feinheiten erkennen
Bei der Erkennung von Textarten ist die Weiterentwicklung von KI ebenfalls notwendig. Hier geht es vor allem um die richtige Zeichensetzung, um bestimmte Textabschnitte voneinander zu unterscheiden. Wie sieht es zum Beispiel bei der Formatierung von Dialogen aus? Künstliche Intelligenz macht auch hier große Fortschritte und lässt sich daher in so ziemlich allen Bereichen der Umsetzung anwenden. Somit können auch künstlerische Audioaufnahmen davon Gebrauch machen, zum Beispiel Theaterstücke, Drehbücher oder normale Bücher.
Sprachen und Akzente zuordnen
Spracherkennung ist ebenfalls etwas, an dem schon seit Jahren gefeilt wird. Viele Tools sind zwar auf mehrere Sprachen ausgelegt, decken aber noch lange nicht die gesamte Bandbreite ab. Manchmal gibt es sogar Programme, die sich nur auf eine Sprache fokussieren. Diese sind dann zwar sehr zuverlässig, aber lassen sich auch nur in einem bestimmten Rahmen anwenden. In unserer heutigen globalisierten Welt wäre es jedoch ein Traum, gesprochene Aussagen direkt und vor allem fehlerfrei in Textform zu übertragen. Anwendungsbereiche wären unter anderem das Sprachenlernen oder Reisen in ferne Länder. Features wie diese gibt es zwar schon, aber sind immer noch anfällig für Fehler.
Schnelligkeit und Genauigkeit
Je länger eine Audiodatei ist, desto länger dauert auch die Transkription als Text. Doch auch hier werden immer wieder neue Meilensteine erreicht, die dafür sorgen, dass KI Texte noch schneller bearbeiten kann. Natürlich muss dabei auch immer ein Fokus auf eine fehlerfreie Umsetzung liegen, jedoch müssen hier zukünftig so gut wie keine Abstriche mehr gemacht werden. Künstliche Intelligenz ist der menschlichen Schnelligkeit schon seit Jahren voraus, jedoch hapert es gerne noch an einigen Stellen. Aktuell ist eine Genauigkeit von 90 bis 99 Prozent gegeben.
Fazit
Speech-to-Text ist ein unheimlich wichtiges Feld in der Entwicklung künstlicher Intelligenz. Seine Geschichte lässt sich bis auf die 1950er Jahre zurückverfolgen, nimmt aber erst jetzt so richtig an Fahrt auf. Alleine Plattformen wie YouTube nutzen ähnliche Tools, um automatisch Untertitel für Milliarden von Videos zu generieren. In Zukunft werden entsprechende Tools nur noch fehlerfreier und schneller funktionieren. Live-Umsetzungen sind ebenfalls möglich und können direkt Sprache in Text umwandeln, um später eine direkte Aufzeichnung eines Gesprächs oder einer Konferenz zu haben. Die Möglichkeiten sind wahrlich endlos und geben vielen Menschen den Zugang zu Audioaufnahmen und Transkripten.