Редакция Ainformer | 29 марта 2026 г.
Google выпустила Gemini 3.1 Flash Live с нативной обработкой звука «audio-to-audio», бросив прямой вызов OpenAI Realtime API на рынке голосового ИИ в реальном времени. Благодаря отказу от традиционного слоя транскрипции, обновление обеспечивает более быстрое и стабильное голосовое взаимодействие, позиционируя Google Gemini как ключевую платформу для ИИ-агентов следующего поколения. Этот апдейт делает мультимодальное взаимодействие в реальном времени полноценным инструментом для использования в ИИ-индустрии.

Бенчмарки и технические характеристики Gemini 3.1 Flash Live
По данным Google DeepMind, модель ориентирована на голосовых агентов реального времени и мультимодальные интерфейсы. Переход на нативную архитектуру audio-to-audio (A2A) позволяет системе обрабатывать звуковые волны напрямую, минуя задержки, возникающие при поэтапном преобразовании речи в текст и обратно.
Производительность модели подтверждается ключевыми отраслевыми бенчмарками:
- ComplexFuncBench Audio: Результат 90,8% в выполнении многошаговых функций через голосовые команды.
- Scale AI Audio MultiChallenge: Результат 36,1%, демонстрирующий более стабильные рассуждения в длительных диалогах с прерываниями.
- Контекстное окно 128K: Теперь поддерживает в 2 раза более длительное удержание нити разговора, что критично для сложных брейнштормов.
Влияние на индустрию: Google против OpenAI Realtime API
Google позиционирует Gemini 3.1 Flash Live как более экономически выгодную альтернативу OpenAI Realtime API. В то время как ранние голосовые модели часто выдавали «механические» паузы, 3.1 Flash Live фокусируется на оптимизации задержки (latency) и тональном интеллекте — способности распознавать разочарование или замешательство пользователя по тембру и темпу речи.
Это ставит Google в условия прямой конкуренции с OpenAI за контроль над инфраструктурой ИИ реального времени.
Модель демонстрирует улучшенную обработку прерываний и устойчивость к шуму. В симулированных условиях с высоким уровнем фонового шума она более последовательно сохраняет контекст диалога, решая распространенную проблему, когда внешние звуки сбивают логику ИИ.
| Ключевая особенность | Техническое влияние |
|---|---|
| Нативное A2A | Устраняет задержку транскрипции для мгновенных ответов. |
| Акустические нюансы | Распознает высоту тона, темп и эмоциональное состояние пользователя. |
| Готовность к агентам | Оптимизирована для автономных агентов и мультимодальных задач. |
Ключевые выводы для разработчиков и бизнеса
- Нативная обработка звука убирает неестественные паузы в ответах.
- Снижение стоимости API может ускорить массовое внедрение голосового ИИ в 2026 году.
- Водяные знаки SynthID интегрированы во все аудиовыходы для борьбы с дипфейками.
- Глобальное расширение Search Live теперь охватывает более 200 стран.



