Kurzfassung
▾
Quellen
▾
Google hat mit Gemini 3.5 Live Translate ein neues KI-Audiomodell für kontinuierliche Echtzeit-Übersetzungen in über 70 Sprachen vorgestellt.
Das System verarbeitet die Audiosignale ohne störende Pausen und bewahrt dabei die natürliche Sprachmelodie sowie die Tonhöhe des Sprechers.
Die Technologie wird schrittweise in Google Meet und die Translate App integriert, wobei Android-Nutzer von einem neuen Hörmodus profitieren.
Entwickler können zudem über die Gemini Live API auf das Modell zugreifen, um eigene Sprachübersetzungs-Apps zu entwickeln.
Quellenangaben
Google Blog – Fluid, natural voice translation with Gemini 3.5 Live Translate
Google DeepMind – Gemini 3.5 Audio (Live Translate) Model Card
Google hat mit Gemini 3.5 Live Translate ein neues KI-Audiomodell für die nahtlose Sprachübersetzung veröffentlicht. Das Modell verarbeitet Audiosignale kontinuierlich und übersetzt in über 70 Sprachen, ohne auf das Ende eines Satzes warten zu müssen. Dabei bleiben die natürliche Betonung, das Tempo und die Tonhöhe des Sprechers in der generierten Ausgabe erhalten.
Kontinuierlicher Datenfluss statt Wartepausen Bisherige Systeme arbeiteten oft rundenbasiert und warteten auf das Satzende des Sprechers. Gemini 3.5 Live Translate generiert die Sprachausgabe stattdessen fortlaufend. Das KI-Modell balanciert zwischen dem Warten auf ausreichenden Kontext und einer schnellen Übersetzung, sodass es nur wenige Sekunden hinter dem Original zurückbleibt und unnatürliche Pausen vermeidet. Die technische Basis dafür bildet erstaunlichweise das Modell Gemini 3 Pro und nicht Gemini 3.5. Die neue Audio-Variante verarbeitet Eingaben mit einem Kontextfenster von bis zu 128.000 Token. Die strukturierte Ausgabe erfolgt wahlweise als Audio oder Text mit einem Limit von bis zu 64.000 Token. Anzeige Neue Funktionen für Google Meet und Smartphones Google integriert das KI-Modell schrittweise in seine eigenen Dienste. Für ausgewählte Geschäftskunden startet diesen Monat eine private Vorschau in Google Meet, in der Anwender in über 2000 Sprachkombinationen kommunizieren können. Ein breiterer Rollout für die Videokonferenz-Software ist für den späteren Jahresverlauf geplant.
Parallel dazu erhält die Google Translate App für Android und iOS weltweit ein Update. Verbinden Anwender ihre Kopfhörer, liefert die Software eine nahtlose Übersetzung der Umgebung. Android-Nutzer erhalten zusätzlich einen neuen Hörmodus: Halten sie das Smartphone wie bei einem Telefonat an das Ohr, wird die übersetzte Audiospur diskret über die Hörmuschel ausgegeben. Schnittstellen für Entwickler und Sicherheitsmaßnahmen Entwickler greifen über die Gemini Live API oder das Google AI Studio auf eine öffentliche Vorschau-Version zu. Dienstleister wie LiveKit oder Pipecat integrieren das Modell bereits in ihre Infrastruktur, während der Fahrdienst Grab die Technologie nutzt, um die monatlich zehn Millionen Sprachanrufe zwischen Fahrern und Fahrgästen zu übersetzen.
Alle generierten Audioinhalte versieht Google mit SynthID. Dieses für Menschen nicht hörbare Wasserzeichen soll die maschinelle Erkennung von KI-generierten Inhalten sicherstellen. Abschließend dokumentiert Google in der technischen Beschreibung einige bekannte Einschränkungen des Modells. Bei längeren Pausen kann das System die generierte Stimme wechseln oder bei schnellen Sprecherwechseln auf einer einzelnen Stimme stehen bleiben. Zudem können starke Akzente oder laute Hintergrundgeräusche zu hörbaren Artefakten in der Übersetzung führen.
Quelle: www.all-ai.de