Новини ШІ

DeepSeek готується представити новітню модель штучного інтелекту?

Share on:

Станом на березень 2026 року відсутні офіційні анонси, бенчмарки або технічна документація щодо наступної ШІ-моделі DeepSeek, що означає непідтвердженість її специфікацій. Спираючись на тренди масштабування, які спостерігалися в DeepSeek-V2, а також на порівнювані frontier-системи з архітектурою mixture-of-experts, прогнозовану продуктивність можна оцінити через ефективність розрідженого масштабування та орієнтири класу MLCommons для інференсу. Цей матеріал є технічним прогнозом, а всі показники продуктивності та інфраструктури подані як інженерні оцінки (~Value est.).

  • Прогнозована загальна кількість параметрів: ~1,0–1,3 трлн (оцінка), офіційні бенчмарки наразі відсутні
  • Прогнозована пропускна здатність інференсу: ~350–500 токенів/сек на вузол класу NVIDIA H100 (оцінка), залежно від частки активованих експертів
  • Прогнозований обчислювальний бюджет навчання: >5e25 FLOPs сумарно (оцінка), відповідно до законів масштабування розріджених моделей трильйонного класу

Операційні параметри

  • Енергетичне навантаження: навчання та експлуатація розрідженої моделі з трильйоном параметрів, за прогнозом, вимагатимуть стабільної щільності енергоспоживання на рівні ~80–120 кВт на стійку (оцінка), що стимулює впровадження рідинного охолодження «безпосередньо до чипа» та високоефективних систем електроживлення.
  • Обчислювальна щільність: архітектура sparse mixture-of-experts дозволяє активувати лише ~5–10% загальної кількості параметрів на один токен, забезпечуючи зростання ефективного масштабу моделі без пропорційного збільшення обчислень і вищу продуктивність на ват порівняно з щільними архітектурами.
  • Стратегічні терміни: темпи впровадження значною мірою залежатимуть від доступності прискорювачів, постачання високошвидкісних міжз’єднань і зрілості кластерної інтеграції; орієнтовний цикл розгортання — 6–12 місяців після завершення первинного навчання моделі.

Архітектура маршрутизації

Прогнозована система, ймовірно, розвиває ієрархічну маршрутизацію mixture-of-experts, поєднуючи розріджені експертні feedforward-шари зі спільною «основою» механізму уваги. Токени динамічно спрямовуються до обмеженої підмножини експертів, що зменшує обсяг активних обчислень при збереженні загального масштабу параметрів. Продуктивність критично залежить від пропускної здатності міжз’єднань, балансування навантаження між експертами та ефективності доступу до пам’яті в розподілених GPU-кластерах.

Детальна технічна візуалізація ключових компонентів моделі DeepSeek
Архітектура моделі DeepSeek: технічна схема, що демонструє розріджену маршрутизацію експертів, розподіл у GPU-кластері та потоки даних через високошвидкісні міжз’єднання.

Профіль продуктивності

Розріджені моделі трильйонного класу зміщують ключові обмеження продуктивності з чистої обчислювальної потужності на пропускну здатність пам’яті та ефективність міжз’єднань. Порівняно зі щільними моделями, такі системи забезпечують вищу пропускну здатність на одиницю обчислень, але потребують складнішої оркестрації та планування. Цей архітектурний зсув безпосередньо впливає на проєктування дата-центрів, економіку інференсу та стратегії використання прискорювачів.

МодельАрхітектураАктивні параметри на токенСтатус
DeepSeek (прогноз)Розріджена MoE~50–100 млрд (оцінка)Прогноз
DeepSeek-V2Розріджена MoE~20–40 млрдВипущена
Клас GPT-4Щільна / гібридна (не розкрито)Не розкритоВипущена
Gemini 1.5 ProРозріджена / гібриднаНе розкритоВипущена

З точки зору CTO, розріджені архітектури трильйонного класу зміщують вузьке місце масштабування з обчислювальної потужності на пропускну здатність міжз’єднань, ефективність пам’яті та стабільність розподілених систем.

Аналітика Ainformer

Прогнозована наступна модель DeepSeek відповідає галузевому переходу до розрідженого масштабування як домінуючого методу розвитку frontier-ШІ. Замість лінійного збільшення обчислень зі зростанням розміру моделі розріджена маршрутизація дозволяє експоненційно збільшувати кількість параметрів, зберігаючи прийнятні експлуатаційні витрати та затримки інференсу.

У разі успішного розгортання така система може посилити регіональну технологічну незалежність у сфері ШІ та прискорити впровадження великомасштабних автономних систем. Ключовим обмежувальним фактором стане не стільки дизайн моделі, скільки доступність високошвидкісних прискорювачів, ефективних кластерних мереж і інфраструктури електроживлення та охолодження дата-центрів, необхідних для безперервної роботи.

Джерела та документація