Speech-to-Text, also die computergestützte Umwandlung von Sprache in Text, ist an sich keine weltbewegende Neuigkeit. Die Technologie konnte jedoch die Erwartungen nie vollends erfüllen. Bereits vor 20 Jahren war es möglich, über ein Mikrofon und Speech-to-Text das gesprochene Wort in Microsoft Word niederzuschreiben. Trotzdem wird bis heute in fast allen Bereichen die klassische Eingabe per Tastatur bevorzugt. Nun erweitert Microsoft die Funktionen des Azure Moduls für die Sprachumwandlung. Ist dieses System wirklich ein Fortschritt im Bereich Speech-to-Text oder gibt es keinen wirklichen praktischen Nutzen für dieses Modul?
Mit diesen Problemen kämpfen Programme für die Sprachumwandlung
Eines der zentralen Probleme bei Speech-to-Text-Systemen war immer die Präzision. Dies hängt einerseits mit der Grösse des Wortschatzes zusammen. Die Systeme müssen aufwendig programmiert sein. Hinzu kommt die Herausforderung der zahlreichen verschiedenen Sprachen. Jede Sprache benötigt ein eigenes Wörterbuch. Dies berücksichtigt noch nicht die vielen unterschiedlichen Dialekte. Auch unterscheidet sich die Aussprache von Person zu Person. Dies sind die zentralen Gründe, warum Softwarelösungen immer wieder an der Umsetzung von Speech-to-Text gescheitert sind und sich dieses Konzept bis heute nicht etabliert hat.
Das macht Microsoft Azure mit dem Speech-to-Text-Modul anders
Microsoft kombiniert auf seiner Azure-Plattform Softwarelösungen mit Künstlicher Intelligenz. So auch beim Speech-to-Text-Modul. Dies hat entscheidende Vorteile, die sich vor allem bei der längeren Nutzung des Systems durch einen Nutzer bemerkbar machen. Dadurch verbessert sich die Erkennung der gesprochenen Worte deutlich, da die Künstliche Intelligenz die Eigenart des Sprechers erlernt. Gleichzeitig ist die KI auch in der Lage, den Sinn eines Satzes zu antizipieren, was die Fehlerquote weiter verringert.
Schweizerdeutsch schafft bisher nur Microsoft
Microsoft hat darüber hinaus die Erkennung von enorm vielen Sprachen mit dem neuen Modul ermöglicht. So können Sie nun auch in Schweizerdeutsch mit dem System interagieren (Gebietsschema de-CH). Azure unterscheidet aktuell zwischen Hochdeutsch, Schweizerdeutsch und auch österreichischem Deutsch. Insgesamt sind über 100 Sprachen und Dialekte im System der Azure Spracherkennung vorhanden.
Abbildung: Der Selbstversuch bringt ans Licht, dass der Sprachkontext korrekt erfasst wird, sich jedoch noch Wiedergabefehler einschleichen.
Ein weiterer Vorteil ist das Umfeld, in dem Microsoft das Speech-to-Text-Modul ausrollt. Es ist Teil der Azure Cognitive Services, einer Sammlung von KI-Modellen, die für die Integration in eigene Apps konzipiert sind. Dies erlaubt eine Anpassung an Ihre eigenen Bedürfnisse und ist somit ein anderer Ansatz, als beispielsweise die direkt in Word integrierte Funktion zur Spracheingabe. Testen Sie Speech to Text mit dieser Demo-App (benötigt kein Microsoft-Konto).
Tatsächlich ist es auch denkbar, die unterschiedlichen Module der Azure Cognitive Services zu kombinieren. Dies kann beispielsweise eine automatisierte Übersetzung der zunächst eingesprochenen Texte beinhalten. Die Azure Spracherkennung erlaubt es auch, Audiodaten hochzuladen. Dann transkribiert das Model bereits vorhandene Audiodaten in Texte und das faktisch in Echtzeit. Dies öffnet breite Möglichkeiten, beispielsweise die automatische Übertragung von Audiomitschnitten in Textdateien sowie die direkte Übersetzung in unterschiedlichste Sprachen.
Wofür ein Team von hoch qualifizierten Mitarbeitenden bisher viele Stunden an Arbeitskraft investieren musste, erledigt Azure mithilfe von Künstlicher Intelligenz und automatisierten Prozessen in potenziell wenigen Sekunden.
Künstliche Intelligenz gekonnt in Ihr Unternehmen integrieren
Das Modul für die Spracherkennung in Azure zeigt erneut deutlich, in welche Richtung sich die IT verstärkt entwickelt. Im Fokus stehen mehr und mehr individuelle Lösungen, die Sie an die eigenen Bedürfnisse anpassen. Anstelle von starren Systemen mit einer vorgefertigten Funktionspalette entwickeln Unternehmen eigene Microservices und orchestrieren diese zu einem Gesamtkonzept, um die Geschäftsprozesse umzusetzen.
Die gekonnte Integration und Entwicklung eigener Services auf Basis von Modulen und Microservices ist somit wichtiger als die Wahl einer bestimmten Plattform. In naher Zukunft werden die Unternehmen, denen es gelingt, die eigenen Geschäftsprozesse möglichst effektiv zu digitalisieren, immer grössere Wettbewerbsvorteile gegenüber den Mitbewerbern haben. So können Sie Dienstleistungen mit grösserem Angebotsspektrum schneller und günstiger anbieten.
Die Integration von Lösungen mit Künstlicher Intelligenz ist die aktuelle Herausforderung. Diese Technik hat enormes Potenzial, das sich bereits in den ersten Anwendungen zeigt. An dem Speech-to-Text-Modul von Microsoft Azure erkennen Sie beispielhaft, was KI leisten kann. Für die Umsetzung solcher Lösungen für Ihr Unternehmen benötigen Sie Know-how und Ideen. UPGREAT als IT-Dienstleister mit dem Fokus auf Digitalisierung bringt das Wissen mit – Sie liefern die Ideen für die Geschäftsprozesse, die Sie digitalisieren möchten.
UPGREAT ist darauf spezialisiert, gemeinsam mit den Kunden konkrete Lösungen für die Digitalisierung auszuarbeiten und diese zu implementieren. Möchten Sie das Potenzial von Künstlicher Intelligenz und Plattformen wie Microsoft Azure in Ihrem Unternehmen ausloten? Nehmen Sie jetzt Kontakt zu UPGREAT auf. Sie erhalten eine fachkundige und individuelle Beratung zu diesem spannenden Thema.