Google випустила TensorFlow 2.21, представивши новий runtime LiteRT для штучного інтелекту, що працює безпосередньо на пристроях. Оновлення знаменує перехід від TensorFlow Lite (TFLite) та позиціонує LiteRT як новий основний runtime для розгортання моделей машинного навчання на edge-пристроях.
Згідно з офіційним анонсом для розробників, LiteRT створений для забезпечення ефективнішого апаратного прискорення, спрощених процесів розгортання та ширшої сумісності з сучасними AI-фреймворками. Новий runtime вже доступний розробникам у складі релізу TensorFlow 2.21.

LiteRT стає наступником TensorFlow Lite
Ключовою зміною в TensorFlow 2.21 став запуск LiteRT для промислового використання. Новий runtime розвиває ідеї TensorFlow Lite та перетворюється на сучасну платформу, орієнтовану на завдання edge-AI.
Google описує LiteRT як високопродуктивний runtime, призначений для розширеного апаратного прискорення та виконання AI-інференсу безпосередньо на пристроях. Він побудований на основі TensorFlow Lite, але використовує оновлену архітектуру runtime для розгортання моделей машинного навчання на мобільних пристроях, вбудованих системах та інших edge-платформах.
Оновлення робить LiteRT основним runtime Google для запуску AI-моделей безпосередньо на пристроях, де критично важливими є затримка, енергоефективність та конфіденційність.
Покращене апаратне прискорення для Edge AI
За даними Google, runtime LiteRT включає низку покращень продуктивності та апаратного прискорення порівняно з TensorFlow Lite.
- До 1,4 раза вища продуктивність GPU порівняно з попереднім GPU-delegate у TFLite
- Нова підтримка прискорення на NPU, що дозволяє використовувати спеціалізовані AI-процесори
- Єдиний механізм прискорення на GPU та NPU для edge-платформ
- Підтримка fallback-режиму — завдання можуть виконуватися на CPU, GPU або NPU залежно від доступного обладнання
Google зазначає, що runtime оптимізований для завдань штучного інтелекту в реальному часі, таких як розпізнавання мовлення, сегментація фону та інші застосунки, чутливі до затримок.
Для підвищення ефективності роботи платформа також впроваджує додаткові оптимізації, включно з асинхронним виконанням і взаємодією буферів без копіювання (zero-copy). За словами компанії, це допомагає зменшити навантаження на CPU та підвищити продуктивність інференсу.
Розширена підтримка GPU на різних платформах
Google повідомляє, що runtime LiteRT підтримує виконання обчислень на GPU у кількох операційних системах і середовищах розробки.
- Android
- iOS
- macOS
- Windows
- Linux
- веб-середовище
Система інтегрується з графічними та обчислювальними фреймворками, включно з OpenCL, OpenGL, Metal та WebGPU, що дозволяє розробникам розгортати моделі на ширшому спектрі апаратних конфігурацій.
За словами Google, така кросплатформна архітектура має спростити впровадження edge-AI при збереженні сумісності між різними пристроями.
Підтримка розгортання моделей PyTorch та JAX
Ще однією важливою зміною в екосистемі LiteRT стала розширена сумісність з іншими фреймворками машинного навчання.
Runtime отримує так звану «першокласну» підтримку конвертації моделей із PyTorch та JAX. Це дозволяє розробникам розгортати моделі, навчені в інших фреймворках, безпосередньо на пристроях із використанням LiteRT.
Згідно з анонсом, ця можливість спрощує роботу між різними фреймворками та дозволяє розгортати відкриті моделі, включно з генеративними моделями на кшталт Gemma, на edge-пристроях.
Фокус на генеративному AI на пристроях
Runtime LiteRT також орієнтований на підтримку нових типів AI-навантажень, особливо генеративних моделей, які можуть працювати локально на пристроях.
Google зазначає, що платформа дозволяє запускати просунуті AI-моделі зі збереженням переваг локального інференсу — таких як мінімальна затримка та підвищена конфіденційність даних.
Компанія також повідомила про співпрацю з виробниками чипів для підтримки спеціалізованого AI-обладнання. Перші інтеграції вже доступні для апаратних платформ MediaTek та Qualcomm.
Чому перехід на новий runtime важливий
Перехід від TensorFlow Lite до LiteRT відображає ширші зміни в підході Google до інфраструктури AI, що працює безпосередньо на пристроях.
Якщо TensorFlow Lite насамперед створювався для ранніх завдань мобільного машинного навчання, то LiteRT орієнтований на нові категорії навантажень — зокрема генеративний AI та розширене апаратне прискорення.
З виходом TensorFlow 2.21 LiteRT стає ключовим runtime для таких завдань, надаючи розробникам єдину платформу для розгортання моделей машинного навчання на мобільних пристроях, настільних системах, вбудованих платформах та у веб-середовищі.



