Новини ШІ

Google запускає Gemini 3.1 Flash Live для голосового ШІ в реальному часі

Share on:

Редакція Ainformer | 29 березня 2026 р.

Google випустила Gemini 3.1 Flash Live із нативною обробкою звуку «audio-to-audio», кинувши прямий виклик OpenAI Realtime API на ринку голосового ШІ в реальному часі. Завдяки відмові від традиційного шару транскрипції, оновлення забезпечує швидшу та стабільнішу голосову взаємодію, позиціонуючи Google Gemini як ключову платформу для ШІ-агентів наступного покоління. Цей апдейт робить мультимодальну взаємодію в реальному часі повноцінним інструментом для використання в ШІ-індустрії.

Візуалізація нативної обробки audio-to-audio в Gemini 3.1 Flash Live
Gemini 3.1 Flash Live підтримує нативну обробку «audio-to-audio», забезпечуючи голосову взаємодію з ультранизькою затримкою.

Бенчмарки та технічні характеристики Gemini 3.1 Flash Live

За даними Google DeepMind, модель орієнтована на голосових агентів реального часу та мультимодальні інтерфейси. Перехід на нативну архітектуру audio-to-audio (A2A) дозволяє системі обробляти звукові хвилі безпосередньо, минаючи затримки, що виникають при поетапному перетворенні мовлення на текст і навпаки.

Продуктивність моделі підтверджується ключовими галузевими бенчмарками:

  • ComplexFuncBench Audio: Результат 90,8% у виконанні багатокрокових функцій через голосові команди.
  • Scale AI Audio MultiChallenge: Результат 36,1%, що демонструє стабільніші міркування під час тривалих діалогів із перериваннями.
  • Контекстне вікно 128K: Тепер підтримує у 2 рази триваліше утримання нитки розмови, що є критичним для складних брейнштормів.

Вплив на індустрію: Google проти OpenAI Realtime API

Google позиціонує Gemini 3.1 Flash Live як економічно вигіднішу альтернативу OpenAI Realtime API. У той час як ранні голосові моделі часто видавали «механічні» паузи, 3.1 Flash Live фокусується на оптимізації затримки (latency) та тональному інтелекті — здатності розпізнавати розчарування або замішання користувача за тембром та темпом мовлення.

Це ставить Google в умови прямої конкуренції з OpenAI за контроль над інфраструктурою ШІ реального часу.

Модель демонструє покращену обробку переривань та стійкість до шуму. У симульованих умовах із високим рівнем фонового шуму вона послідовніше зберігає контекст діалогу, вирішуючи поширену проблему, коли зовнішні звуки збивають логіку ШІ.

Ключова особливістьТехнічний вплив
Нативне A2AУсуває затримку транскрипції для миттєвих відповідей.
Акустичні нюансиРозпізнає висоту тону, темп та емоційний стан користувача.
Готовність до агентівОптимізована для автономних агентів та мультимодальних завдань.

Ключові висновки для розробників та бізнесу

  • Нативна обробка звуку прибирає неприродні паузи у відповідях.
  • Зниження вартості API може прискорити масове впровадження голосового ШІ у 2026 році.
  • Водяні знаки SynthID інтегровані в усі аудіовиходи для боротьби з дипфейками.
  • Глобальне розширення Search Live тепер охоплює понад 200 країн.

Джерела