Протягом десятиліть фундамент глибокого навчання спирався на операції множення матриць (Matrix Multiplication, MatMul), на які припадає переважна частина обчислювальних витрат у великих мовних моделях. Однак зростаючі потреби в енергії при масштабуванні архітектур Transformer спровокували зміну парадигми в бік альтернатив без використання MatMul. Замінюючи ресурсомістке множення операціями на основі додавання та тернарними системами ваг, дослідники доводять, що високопродуктивний ШІ може існувати без традиційних вузьких місць на рівні апаратного забезпечення. Цей перехід являє собою дещо більше, ніж просту оптимізацію; це фундаментальне переосмислення того, як цифрова логіка обробляє інтелект — перехід від грубої арифметики минулого до обтічних, орієнтованих на обладнання архітектур.
Технічні механізми виключення матричного множення
Основна інновація в моделях без MatMul полягає у використанні тернарних ваг і шарів BitLinear. У стандартній нейронній мережі ваги зазвичай зберігаються у вигляді 16-бітних або 32-бітних чисел із плаваючою комою, що вимагає високої точності при множенні. Архітектури без MatMul, такі як BitNet, обмежують ваги тернарним набором значень: {-1, 0, 1}. Коли ваги обмежені цими значеннями, стандартна операція множення фактично зникає. Замість множення вхідних даних на вагу система виконує зміну знака або обнулення значення. Цей перехід трансформує обчислювальну складність мережі з O(n^2.37) або аналогічних шкал із переважанням множення в лінійні операції додавання.
Апаратна реалізація цих моделей спирається на той факт, що додавання значно дешевше за множення з погляду площі кристала та розрахункової теплової потужності. Сучасна обробка сигналів часто стикається зі «стіною пам’яті», коли переміщення даних для множення споживає більше енергії, ніж саме обчислення. Спрощуючи математичне ядро, ці архітектури забезпечують ефективніше переміщення даних і вищу пропускну здатність. Крім того, інтеграція керованих рекуррентних блоків (GRU), що уникають MatMul, дозволяє цим моделям підтримувати відстеження дальніх залежностей — функцію, яка раніше вважалася виключною прерогативою традиційних трансформерів — при цьому працюючи з в рази меншими витратами енергії.
Бенчмарки продуктивності та порівняння масштабованості
Емпіричні дані свідчать про те, що моделі без MatMul починають скорочувати розрив у продуктивності з традиційними 16-бітними трансформерами. На масштабах від 100 мільйонів до 2,7 мільярда параметрів моделі, що використовують бінаризовану або тернарну логіку, показали конкурентоспроможні результати за метрикою perplexity у стандартних лінгвістичних тестах. Хоча на меншій кількості параметрів спостерігається невеликий «податок на квантування», виграш в ефективності стає помітнішим у міру збільшення розміру моделі. Основна перевага полягає у скороченні обсягу пам’яті, що може досягати 10 разів порівняно з моделями повної точності, що дозволяє запускати більші моделі на обладнанні споживчого класу без суттєвої втрати у здатності до міркування.
- Знижує використання пам’яті GPU за рахунок усунення необхідності зберігання високоточних ваг.
- Прискорює швидкість логічного виводу (inference) завдяки використанню спеціалізованих ядер, оптимізованих для цілочисельного додавання.
- Мінімізує тепловий тротлінг у середовищах периферійних обчислень (edge computing) через нижчу активність перемикання в АЛП.
Наслідки для інфраструктури дата-центрів та Edge AI
Зсув у бік архітектур без MatMul вимагає переоцінки поточного домінування апаратного забезпечення. Сучасні прискорювачі ШІ, зокрема GPU та TPU, сильно оптимізовані для щільних матричних обчислень. Екосистема без MatMul сприятиме спеціалізованим інтегральним схемам (ASIC) та FPGA, розробленим для побітової логіки та високошвидкісного додавання. Це може призвести до децентралізації потужностей ШІ, переміщуючи виконання високорівневих моделей із масивних центрів обробки даних на локальні периферійні пристрої. Для таких галузей, як автономне водіння або мобільний зв’язок, це означає можливість локального запуску складних LLM без залежності від постійного хмарного з’єднання або масивних акумуляторних батарей.
Крім апаратного забезпечення, має розвиватися і стек програмного забезпечення. Існуючі фреймворки глибокого навчання, такі як PyTorch та TensorFlow, побудовані з розрахунку на домінування обчислень із плаваючою комою. Розробка кастомних ядер, здатних нативно обробляти тернарні операції, є необхідною для реалізації теоретичного прискорення цих моделей. У міру дозрівання цих програмних оптимізацій ми очікуємо сплеску ініціатив «Green AI» (Зелений ШІ), де метрика успіху зміститься з чистої кількості параметрів на «продуктивність на ват». Цей рух є критично важливим для довгострокової стійкості галузі, оскільки глобальні енергомережі стикаються з зростаючим тиском з боку споживання електроенергії системами ШІ.
Прогноз експертів ainformer
У найближчі двадцять чотири місяці ми, ймовірно, побачимо перші впровадження архітектур без MatMul комерційного рівня у спеціалізованих нішевих сегментах, перш ніж вони кинуть виклик LLM загального призначення. Ми очікуємо, що перший великий прорив відбудеться в індустрії мобільних процесорів, де виробники чіпів інтегрують виділені блоки тернарної логіки для роботи ШІ-асистентів на пристроях. Хоча традиційні трансформери залишаться золотим стандартом для передових дослідницьких моделей у короткостроковій перспективі, економічна реальність вартості енергії змусить галузь перейти на нові рейки. До 2027 року ми прогнозуємо, що «MatMul-free» стане стандартним варіантом архітектури в бібліотеках із відкритим вихідним кодом, що призведе до появи нового класу моделей із параметрами 10B+, які зможуть безперешкодно працювати на обладнанні, що наразі обмежене традиційними моделями з 1B параметрів. Кінцевим пунктом цього тренду є повна конвергенція нейронної архітектури та ефективної цифрової логіки, що фактично покладе край ері GPU як єдиного «брамника» штучного інтелекту.



