Google выпустила TensorFlow 2.21, представив новый runtime LiteRT для искусственного интеллекта, работающего непосредственно на устройствах. Обновление знаменует переход от TensorFlow Lite (TFLite) и позиционирует LiteRT как новый основной runtime для развёртывания моделей машинного обучения на edge-устройствах.
Согласно официальному анонсу для разработчиков, LiteRT разработан для обеспечения более эффективного аппаратного ускорения, упрощённых процессов развёртывания и более широкой совместимости с современными AI-фреймворками. Новый runtime уже доступен разработчикам в составе релиза TensorFlow 2.21.

LiteRT становится преемником TensorFlow Lite
Ключевым изменением в TensorFlow 2.21 стал запуск LiteRT для промышленного использования. Новый runtime развивает идеи TensorFlow Lite и превращается в современную платформу, ориентированную на задачи edge-AI.
Google описывает LiteRT как высокопроизводительный runtime, предназначенный для продвинутого аппаратного ускорения и выполнения AI-инференса непосредственно на устройствах. Он построен на основе TensorFlow Lite, но использует обновлённую архитектуру runtime для развёртывания моделей машинного обучения на мобильных устройствах, встроенных системах и других edge-платформах.
Обновление делает LiteRT основным runtime Google для запуска AI-моделей непосредственно на устройствах, где критически важны задержка, энергоэффективность и конфиденциальность.
Улучшенное аппаратное ускорение для Edge AI
По данным Google, runtime LiteRT включает ряд улучшений производительности и аппаратного ускорения по сравнению с TensorFlow Lite.
- До 1.4 раза более высокая производительность GPU по сравнению с предыдущим GPU-delegate в TFLite
- Новая поддержка ускорения на NPU, позволяющая использовать специализированные AI-процессоры
- Единый механизм ускорения на GPU и NPU для edge-платформ
- Поддержка fallback-режима — задачи могут выполняться на CPU, GPU или NPU в зависимости от доступного оборудования
Google отмечает, что runtime оптимизирован для задач искусственного интеллекта в реальном времени, таких как распознавание речи, сегментация фона и другие приложения, чувствительные к задержкам.
Для повышения эффективности работы платформа также внедряет дополнительные оптимизации, включая асинхронное выполнение и взаимодействие буферов без копирования (zero-copy). По словам компании, это помогает снизить нагрузку на CPU и повысить производительность инференса.
Расширенная поддержка GPU на разных платформах
Google сообщает, что runtime LiteRT поддерживает выполнение вычислений на GPU в нескольких операционных системах и средах разработки.
- Android
- iOS
- macOS
- Windows
- Linux
- веб-среда
Система интегрируется с графическими и вычислительными фреймворками, включая OpenCL, OpenGL, Metal и WebGPU, что позволяет разработчикам развёртывать модели на более широком спектре аппаратных конфигураций.
По словам Google, такая кроссплатформенная архитектура должна упростить внедрение edge-AI при сохранении совместимости между различными устройствами.
Поддержка развёртывания моделей PyTorch и JAX
Ещё одним важным изменением в экосистеме LiteRT стала расширенная совместимость с другими фреймворками машинного обучения.
Runtime получает так называемую «первоклассную» поддержку конвертации моделей из PyTorch и JAX. Это позволяет разработчикам развёртывать модели, обученные в других фреймворках, непосредственно на устройствах с использованием LiteRT.
Согласно анонсу, эта возможность упрощает работу между различными фреймворками и позволяет развёртывать открытые модели, включая генеративные модели вроде Gemma, на edge-устройствах.
Фокус на генеративном AI на устройствах
Runtime LiteRT также ориентирован на поддержку новых типов AI-нагрузок, особенно генеративных моделей, которые могут выполняться локально на устройствах.
Google отмечает, что платформа позволяет запускать продвинутые AI-модели с сохранением преимуществ локального инференса — таких как минимальная задержка и повышенная конфиденциальность данных.
Компания также сообщила о сотрудничестве с производителями чипов для поддержки специализированного AI-оборудования. Первые интеграции уже доступны для аппаратных платформ MediaTek и Qualcomm.
Почему переход на новый runtime важен
Переход от TensorFlow Lite к LiteRT отражает более широкие изменения в подходе Google к инфраструктуре AI, работающего непосредственно на устройствах.
Если TensorFlow Lite в первую очередь создавался для ранних задач мобильного машинного обучения, то LiteRT ориентирован на новые категории нагрузок — включая генеративный AI и расширенное аппаратное ускорение.
С выходом TensorFlow 2.21 LiteRT становится ключевым runtime для таких задач, предоставляя разработчикам единую платформу для развёртывания моделей машинного обучения на мобильных устройствах, настольных системах, встроенных платформах и в веб-среде.



