xAI hat zwei neue Schnittstellen (APIs) für Sprachtechnologie vorgestellt: Grok Speech to Text und Grok Text to Speech. Die Tools sollen es Entwicklern ermöglichen, hochwertige Audio-Funktionen in Anwendungen zu integrieren – von Voice-Assistenten bis zu Transkriptionsdiensten. Die APIs basieren auf der gleichen Technologie, die bereits in Tesla-Fahrzeugen und Starlink-Kundensupport eingesetzt wird. Speech to Text kostet 0,10 US-Dollar pro Stunde (Batch) oder 0,20 Dollar (Live-Streaming), Text to Speech 4,20 Dollar pro Million Zeichen. Besonderheiten sind Sprechererkennung, über 25 Sprachen, Echtzeit-Verarbeitung und natürliche Sprachausdrücke durch Tags wie [laugh] oder [whisper].
xAI stellt Sprach-APIs für Entwickler bereit
Unsere Einordnung
xAI positioniert sich mit dem API-Release strategisch gegen etablierte Anbieter wie OpenAI und Google und nutzt dabei seinen Vorteil des Zugangs zu Tesla-Hardware und Echtzeit-Daten. Die Preisgestaltung ist wettbewerbsfähig, das Feature-Set solide – ob die Qualität bei Akzenten und Sprachvarianten mithalten kann, werden Entwickler schnell testen.
Schlüsselfakten
- Grok STT und TTS basieren auf Technologie aus Tesla Optimus und Starlink-Support
- Speech to Text unterstützt über 25 Sprachen mit Sprechererkennung und Mehrkanalunterstützung
- Preismodell: STT $0,10–0,20/Stunde, TTS $4,20 pro 1 Million Zeichen
- Text to Speech ermöglicht emotionale Ausdrücke durch einfache Tags ([laugh], [whisper], [pause])
- APIs adressieren Use-Cases wie Voice Agents, Podcasts, Medizin- und Finanztranskription