InFocus_Crusader_MasterInFocus_Crusader_Grandmaster_with_Stand_1744034208.jpg

Topthema: InFocus Crusader Master, InFocus Crusader Grandmaster with Stand Portable Projektoren

Mit der Crusader-Serie bringt InFocus drei smarte Lifestyle-Projektoren: Crusader Challenger, Master und Grandmaster. Wir testen die beiden größeren Modelle.

>> Mehr erfahren >> Alle anzeigen

515_0_3

Topthema: Kinosofas für ultimativen Sitzkomfort Ihr Heimkino-Upgrade zum Vorteilspreis

Verwandeln Sie Ihr Heimkino mit den hochwertigen Kinosofas von Sofanella - erstklassige Materialien und intelligente Funktionen für unvergessliche Filmerlebnisse.

>> Mehr erfahren >> Alle anzeigen

News Kategorie: Service

Marke:

Voice-to-Text-Revolution: Der rasante Fortschritt in der künstlichen Intelligenz geht weiter

26.02.2024 09:20 Uhr von Robert Glückshöfer

Künstliche Intelligenz lässt sich nicht nur auf Texte und Bilder übertragen, sondern auch auf Stimmen. Schon seit vielen Jahrzehnten wird an Umwandlung von Stimmen zu Text gearbeitet, um Scripte und Untertitel einfacher einzufügen und diese möglichst fehlerfrei zu nutzen.

Stolpersteine gibt es immer, vor allem bei unverständlichen Audiospuren, Dialekten oder schlechten Aufnahmen. Doch KI ist mittlerweile so sehr auf dem Vormarsch, dass sich bald selbst komplizierte Audio- und Videoaufnahmen problemlos zu Text verarbeiten lassen.

489_23584_2

Topthema: Träume werden wahr Standlautsprecher · ESS AMT-1 D Revival

Für die Älteren unter uns gehören diese Lautsprecher zu den ersten jugendlichen Audiowunschträumen, wie zum Beispiel das Klipschorn oder die Electro Voice Sentry III. Für alle anderen könnte dieser besondere Lautsprecher eine echte Überraschung werden.

>> Mehr erfahren >> Alle anzeigen

Wozu dient die Umwandlung von Audio zu Text?

Die Umwandlung von Audioaufnahmen oder Videos zu Text ist wichtig, um Informationen besser und einfacher abrufen zu können. Es hat also vor allem funktionelle Gründe, die sich aber auf viele Bereiche anwenden lassen. Transkripte sind in vielen Bereichen nötig, um sich nicht immer wieder die Audiodatei anhören zu müssen und Infos einfacher an andere Personen weiterzugeben. Worte lassen sich einfacher verfolgen und wichtige Punkte können so besser aufgenommen und vor allem wiederholt werden, ohne ständig die Audioaufnahme zurückspulen zu müssen.

Mit einer Textausgabe werden Audioaufnahmen außerdem zugänglicher für bestimmte Bevölkerungsgruppen, zum Beispiel schwerhörige Menschen, die sich nicht mehr auf ihr Gehör verlassen können. Transkripte helfen dabei, Inhalte auch an diese Leute weiterzugeben.

Audio zu Text Programme vereinfachen diesen Prozess ungemein. Während man sich früher selbst um das Transkribieren kümmern musste, kann das mittlerweile eine künstliche Intelligenz übernehmen. Das Ganze funktioniert im Prinzip wie ein Diktat, nur eben komplett automatisiert und hoffentlich ohne menschliche Fehler, die sich womöglich einschleichen. Sowohl bereits aufgenommene Aufnahmen als auch Live-Übertragungen können mithilfe solcher Programme in Textform umgewandelt werden.

Doch welche Fortschritte wurden auf diesem Feld genau gemacht? Und welche Rolle spielt die künstliche Intelligenz bei der Umsetzung von Voice-to-Text-Programmen?

Fehlerfreie Ausgabe

Rechtschreibung und Grammatik sind für einen menschlichen Transkriptor wichtige Grundbausteine, um Texte auch richtig zu übertragen. Doch auch hier gibt es immer wieder Lücken, die sich auftun und dafür sorgen, dass Texte nicht richtig interpretiert werden. Computer und künstliche Intelligenz sollten damit jedoch weniger Probleme haben, immerhin sind diese darauf trainiert, Fehler zu finden und diese zu korrigieren. Jedes Schreibprogramm verfügt über die Funktionen, die natürlich auch bei Audio-to-Text angewendet werden. Somit werden grobe Fehler vermieden.

KI ist aber auch nicht unfehlbar, was einem sicher von der Texterstellung in Word oder einem anderen Schreibprogramm bekannt ist. Sie kann schlichtweg nicht alle Kontexte und grammatischen Regeln kennen, geschweige denn unbekannte Begriffe, Dialekte oder Fantasienamen richtig zuordnen. Aber auch in diesem Feld tut sich einiges, die Technologie ist auf dem Vormarsch und künstliche Intelligenz wird anhand von früheren Texten deutlich schlauer. Es ist also nur eine Frage der Zeit, bis sie Texte fehlerfrei aus Audioaufnahmen extrahieren und in Textform umsetzen kann.

Textart und andere Feinheiten erkennen

Bei der Erkennung von Textarten ist die Weiterentwicklung von KI ebenfalls notwendig. Hier geht es vor allem um die richtige Zeichensetzung, um bestimmte Textabschnitte voneinander zu unterscheiden. Wie sieht es zum Beispiel bei der Formatierung von Dialogen aus? Künstliche Intelligenz macht auch hier große Fortschritte und lässt sich daher in so ziemlich allen Bereichen der Umsetzung anwenden. Somit können auch künstlerische Audioaufnahmen davon Gebrauch machen, zum Beispiel Theaterstücke, Drehbücher oder normale Bücher.

Sprachen und Akzente zuordnen

Spracherkennung ist ebenfalls etwas, an dem schon seit Jahren gefeilt wird. Viele Tools sind zwar auf mehrere Sprachen ausgelegt, decken aber noch lange nicht die gesamte Bandbreite ab. Manchmal gibt es sogar Programme, die sich nur auf eine Sprache fokussieren. Diese sind dann zwar sehr zuverlässig, aber lassen sich auch nur in einem bestimmten Rahmen anwenden. In unserer heutigen globalisierten Welt wäre es jedoch ein Traum, gesprochene Aussagen direkt und vor allem fehlerfrei in Textform zu übertragen. Anwendungsbereiche wären unter anderem das Sprachenlernen oder Reisen in ferne Länder. Features wie diese gibt es zwar schon, aber sind immer noch anfällig für Fehler.

Schnelligkeit und Genauigkeit

Je länger eine Audiodatei ist, desto länger dauert auch die Transkription als Text. Doch auch hier werden immer wieder neue Meilensteine erreicht, die dafür sorgen, dass KI Texte noch schneller bearbeiten kann. Natürlich muss dabei auch immer ein Fokus auf eine fehlerfreie Umsetzung liegen, jedoch müssen hier zukünftig so gut wie keine Abstriche mehr gemacht werden. Künstliche Intelligenz ist der menschlichen Schnelligkeit schon seit Jahren voraus, jedoch hapert es gerne noch an einigen Stellen. Aktuell ist eine Genauigkeit von 90 bis 99 Prozent gegeben.

Fazit

Speech-to-Text ist ein unheimlich wichtiges Feld in der Entwicklung künstlicher Intelligenz. Seine Geschichte lässt sich bis auf die 1950er Jahre zurückverfolgen, nimmt aber erst jetzt so richtig an Fahrt auf. Alleine Plattformen wie YouTube nutzen ähnliche Tools, um automatisch Untertitel für Milliarden von Videos zu generieren. In Zukunft werden entsprechende Tools nur noch fehlerfreier und schneller funktionieren. Live-Umsetzungen sind ebenfalls möglich und können direkt Sprache in Text umwandeln, um später eine direkte Aufzeichnung eines Gesprächs oder einer Konferenz zu haben. Die Möglichkeiten sind wahrlich endlos und geben vielen Menschen den Zugang zu Audioaufnahmen und Transkripten.

vorherige News

nächste News

Neu im Shop

ePaper Jahres-Archive, z.B. Klang & Ton

>> mehr erfahren

502_23688_2

Topthema: Himmlisches Team

Dynaudio Contour 20i, MOON Audio 250i V2

Unser Hobby spiegelt die Welt da draußen wider: immer mehr, immer größer, immer teurer muss es sein. Zum Glück gibt es aber auch Gegenbeispiele. Mit dem dänischkanadischen Traumduo kann man seinen irdischen Musikfrieden finden.

>> Mehr erfahren

kostenloses Probeexemplar Cover Probeexemplar