Google Cloud aktualisiert KI-gestützte Sprachtools für Unternehmen

  • Oct 21, 2023

Die Speech-to-Text- und Text-to-Speech-Produkte von Google erhalten mehr Stimmen, mehr Sprachen und niedrigere Preise.

Leitfaden für Führungskräfte

Was ist KI? Alles, was Sie über Künstliche Intelligenz wissen müssen

Ein Leitfaden zur künstlichen Intelligenz, vom maschinellen Lernen und allgemeiner KI bis hin zu neuronalen Netzen.

Lies jetzt

Google Cloud am Donnerstag angekündigt es aktualisiert seine Text zu Sprache Produkte mit mehr Stimme und mehr Sprachen. Auch Google hat die Qualität verbessert Speech-to-Text Transkriptionstools und macht einige ihrer Funktionen allgemein verfügbar. Die Updates sollen Entwicklern dabei helfen, intelligente Sprachanwendungen zu entwickeln, die Millionen weiterer Menschen erreichen und effektiver funktionieren können.

Für Text-to-Speech hat Google seit dem letzten Update im August die Anzahl der verfügbaren Stimmen etwa verdoppelt. Es wurde Unterstützung für sieben neue Sprachen oder Varianten hinzugefügt, darunter Dänisch, Portugiesisch/Portugal, Russisch, Polnisch, Slowakisch, Ukrainisch und Norwegisch (Bokmål) – alle in der Betaphase. Das Produkt unterstützt nun insgesamt 21 Sprachen.

In diesen neuen Sprachen hat Google 31 neue hinzugefügt WaveNet Stimmen und 24 neue Standardstimmen. Laut Google werden mittlerweile insgesamt 106 Stimmen unterstützt.

WaveNet ist ein tiefes neuronales Netzwerk zur Erzeugung von Rohaudio, das Stimmen erzeugt, die natürlicher klingen als herkömmliche Text-to-Speech-Stimmen. Die Technologie wurde von DeepMind entwickelt, dem KI-Unternehmen, das Google 2014 übernommen hat.

„Dank des einzigartigen Zugriffs auf die WaveNet-Technologie, die von Google Cloud TPUs unterstützt wird, können wir neue Stimmen aufbauen und.“ „Sprachen schneller und einfacher zu erstellen, als es in der Branche üblich ist“, sagte Google-Produktmanager Dan Aharon in einem Blog Post.

Googles Hauptkonkurrent für Text-to-Speech-Dienste ist Polly von Amazon Web Services, das laut seiner Website derzeit 58 Stimmen ermöglicht.

Zusätzlich zum Hinzufügen neuer Stimmen bietet Googles Text-to-Speech Geräteprofile Die Funktion ist jetzt allgemein verfügbar. Dadurch können Kunden die Audiowiedergabe auf verschiedenen Arten von Hardware optimieren, beispielsweise Kopfhörern für Medienanwendungen wie Podcasts.

Mittlerweile bringt Google Speech-to-Text in die allgemeine Verfügbarkeit Premium-Modelle für Video und erweitertes Telefon, die letztes Jahr in der Betaversion eingeführt wurden. Der Videomodell, die auf einer Technologie basiert, die der von YouTube ähnelt automatische Untertitelung, hat jetzt 64 Prozent weniger Transkriptionsfehler, gab Google bekannt. Das verbesserte Telefonmodell weist jetzt 62 Prozent weniger Fehler auf.

Google konnte die Modelle verbessern, indem es Kunden, die die Premiumdienste nutzten, dazu verpflichtete, Nutzungsdaten per Datenprotokollierung zu teilen. Ab sofort können Kunden das erweiterte Telefonmodell nutzen, ohne sich für die Datenfreigabe zu entscheiden, während diejenigen, die sich dafür entscheiden, einen niedrigeren Tarif zahlen. Außerdem sind die Preise für alle Premium-Videomodell-Kunden niedriger, und diejenigen, die sich für die Datenfreigabe entscheiden, erhalten einen zusätzlichen Rabatt.

Google gibt außerdem die allgemeine Verfügbarkeit von bekannt Mehrkanalerkennung, was der Speech-to-Text-API hilft, zwischen mehreren Audiokanälen zu unterscheiden. Dies ist in Szenarien nützlich, an denen mehrere Personen beteiligt sind, beispielsweise bei der Durchführung von Besprechungsanalysen.