Редакція Ainformer | 29 березня 2026 р.
Google випустила Gemini 3.1 Flash Live із нативною обробкою звуку «audio-to-audio», кинувши прямий виклик OpenAI Realtime API на ринку голосового ШІ в реальному часі. Завдяки відмові від традиційного шару транскрипції, оновлення забезпечує швидшу та стабільнішу голосову взаємодію, позиціонуючи Google Gemini як ключову платформу для ШІ-агентів наступного покоління. Цей апдейт робить мультимодальну взаємодію в реальному часі повноцінним інструментом для використання в ШІ-індустрії.

Бенчмарки та технічні характеристики Gemini 3.1 Flash Live
За даними Google DeepMind, модель орієнтована на голосових агентів реального часу та мультимодальні інтерфейси. Перехід на нативну архітектуру audio-to-audio (A2A) дозволяє системі обробляти звукові хвилі безпосередньо, минаючи затримки, що виникають при поетапному перетворенні мовлення на текст і навпаки.
Продуктивність моделі підтверджується ключовими галузевими бенчмарками:
- ComplexFuncBench Audio: Результат 90,8% у виконанні багатокрокових функцій через голосові команди.
- Scale AI Audio MultiChallenge: Результат 36,1%, що демонструє стабільніші міркування під час тривалих діалогів із перериваннями.
- Контекстне вікно 128K: Тепер підтримує у 2 рази триваліше утримання нитки розмови, що є критичним для складних брейнштормів.
Вплив на індустрію: Google проти OpenAI Realtime API
Google позиціонує Gemini 3.1 Flash Live як економічно вигіднішу альтернативу OpenAI Realtime API. У той час як ранні голосові моделі часто видавали «механічні» паузи, 3.1 Flash Live фокусується на оптимізації затримки (latency) та тональному інтелекті — здатності розпізнавати розчарування або замішання користувача за тембром та темпом мовлення.
Це ставить Google в умови прямої конкуренції з OpenAI за контроль над інфраструктурою ШІ реального часу.
Модель демонструє покращену обробку переривань та стійкість до шуму. У симульованих умовах із високим рівнем фонового шуму вона послідовніше зберігає контекст діалогу, вирішуючи поширену проблему, коли зовнішні звуки збивають логіку ШІ.
| Ключова особливість | Технічний вплив |
|---|---|
| Нативне A2A | Усуває затримку транскрипції для миттєвих відповідей. |
| Акустичні нюанси | Розпізнає висоту тону, темп та емоційний стан користувача. |
| Готовність до агентів | Оптимізована для автономних агентів та мультимодальних завдань. |
Ключові висновки для розробників та бізнесу
- Нативна обробка звуку прибирає неприродні паузи у відповідях.
- Зниження вартості API може прискорити масове впровадження голосового ШІ у 2026 році.
- Водяні знаки SynthID інтегровані в усі аудіовиходи для боротьби з дипфейками.
- Глобальне розширення Search Live тепер охоплює понад 200 країн.



