Новости ИИ

Google запускает Gemini 3.1 Flash Live для голосового ИИ в реальном времени

Share on:

Редакция Ainformer | 29 марта 2026 г.

Google выпустила Gemini 3.1 Flash Live с нативной обработкой звука «audio-to-audio», бросив прямой вызов OpenAI Realtime API на рынке голосового ИИ в реальном времени. Благодаря отказу от традиционного слоя транскрипции, обновление обеспечивает более быстрое и стабильное голосовое взаимодействие, позиционируя Google Gemini как ключевую платформу для ИИ-агентов следующего поколения. Этот апдейт делает мультимодальное взаимодействие в реальном времени полноценным инструментом для использования в ИИ-индустрии.

Визуализация нативной обработки audio-to-audio в Gemini 3.1 Flash Live
Gemini 3.1 Flash Live поддерживает нативную обработку «audio-to-audio», обеспечивая голосовое взаимодействие с ультранизкой задержкой.

Бенчмарки и технические характеристики Gemini 3.1 Flash Live

По данным Google DeepMind, модель ориентирована на голосовых агентов реального времени и мультимодальные интерфейсы. Переход на нативную архитектуру audio-to-audio (A2A) позволяет системе обрабатывать звуковые волны напрямую, минуя задержки, возникающие при поэтапном преобразовании речи в текст и обратно.

Производительность модели подтверждается ключевыми отраслевыми бенчмарками:

  • ComplexFuncBench Audio: Результат 90,8% в выполнении многошаговых функций через голосовые команды.
  • Scale AI Audio MultiChallenge: Результат 36,1%, демонстрирующий более стабильные рассуждения в длительных диалогах с прерываниями.
  • Контекстное окно 128K: Теперь поддерживает в 2 раза более длительное удержание нити разговора, что критично для сложных брейнштормов.

Влияние на индустрию: Google против OpenAI Realtime API

Google позиционирует Gemini 3.1 Flash Live как более экономически выгодную альтернативу OpenAI Realtime API. В то время как ранние голосовые модели часто выдавали «механические» паузы, 3.1 Flash Live фокусируется на оптимизации задержки (latency) и тональном интеллекте — способности распознавать разочарование или замешательство пользователя по тембру и темпу речи.

Это ставит Google в условия прямой конкуренции с OpenAI за контроль над инфраструктурой ИИ реального времени.

Модель демонстрирует улучшенную обработку прерываний и устойчивость к шуму. В симулированных условиях с высоким уровнем фонового шума она более последовательно сохраняет контекст диалога, решая распространенную проблему, когда внешние звуки сбивают логику ИИ.

Ключевая особенностьТехническое влияние
Нативное A2AУстраняет задержку транскрипции для мгновенных ответов.
Акустические нюансыРаспознает высоту тона, темп и эмоциональное состояние пользователя.
Готовность к агентамОптимизирована для автономных агентов и мультимодальных задач.

Ключевые выводы для разработчиков и бизнеса

  • Нативная обработка звука убирает неестественные паузы в ответах.
  • Снижение стоимости API может ускорить массовое внедрение голосового ИИ в 2026 году.
  • Водяные знаки SynthID интегрированы во все аудиовыходы для борьбы с дипфейками.
  • Глобальное расширение Search Live теперь охватывает более 200 стран.

Источники