Новости ИИ

TensorFlow 2.21 представляет LiteRT runtime для ИИ на устройствах

Share on:

Google выпустила TensorFlow 2.21, представив новый runtime LiteRT для искусственного интеллекта, работающего непосредственно на устройствах. Обновление знаменует переход от TensorFlow Lite (TFLite) и позиционирует LiteRT как новый основной runtime для развёртывания моделей машинного обучения на edge-устройствах.

Согласно официальному анонсу для разработчиков, LiteRT разработан для обеспечения более эффективного аппаратного ускорения, упрощённых процессов развёртывания и более широкой совместимости с современными AI-фреймворками. Новый runtime уже доступен разработчикам в составе релиза TensorFlow 2.21.

Анонс релиза TensorFlow 2.21 в блоге разработчиков Google
Google объявила о выпуске TensorFlow 2.21 и новом runtime LiteRT в официальном блоге для разработчиков.

LiteRT становится преемником TensorFlow Lite

Ключевым изменением в TensorFlow 2.21 стал запуск LiteRT для промышленного использования. Новый runtime развивает идеи TensorFlow Lite и превращается в современную платформу, ориентированную на задачи edge-AI.

Google описывает LiteRT как высокопроизводительный runtime, предназначенный для продвинутого аппаратного ускорения и выполнения AI-инференса непосредственно на устройствах. Он построен на основе TensorFlow Lite, но использует обновлённую архитектуру runtime для развёртывания моделей машинного обучения на мобильных устройствах, встроенных системах и других edge-платформах.

Обновление делает LiteRT основным runtime Google для запуска AI-моделей непосредственно на устройствах, где критически важны задержка, энергоэффективность и конфиденциальность.

Улучшенное аппаратное ускорение для Edge AI

По данным Google, runtime LiteRT включает ряд улучшений производительности и аппаратного ускорения по сравнению с TensorFlow Lite.

  • До 1.4 раза более высокая производительность GPU по сравнению с предыдущим GPU-delegate в TFLite
  • Новая поддержка ускорения на NPU, позволяющая использовать специализированные AI-процессоры
  • Единый механизм ускорения на GPU и NPU для edge-платформ
  • Поддержка fallback-режима — задачи могут выполняться на CPU, GPU или NPU в зависимости от доступного оборудования

Google отмечает, что runtime оптимизирован для задач искусственного интеллекта в реальном времени, таких как распознавание речи, сегментация фона и другие приложения, чувствительные к задержкам.

Для повышения эффективности работы платформа также внедряет дополнительные оптимизации, включая асинхронное выполнение и взаимодействие буферов без копирования (zero-copy). По словам компании, это помогает снизить нагрузку на CPU и повысить производительность инференса.

Расширенная поддержка GPU на разных платформах

Google сообщает, что runtime LiteRT поддерживает выполнение вычислений на GPU в нескольких операционных системах и средах разработки.

  • Android
  • iOS
  • macOS
  • Windows
  • Linux
  • веб-среда

Система интегрируется с графическими и вычислительными фреймворками, включая OpenCL, OpenGL, Metal и WebGPU, что позволяет разработчикам развёртывать модели на более широком спектре аппаратных конфигураций.

По словам Google, такая кроссплатформенная архитектура должна упростить внедрение edge-AI при сохранении совместимости между различными устройствами.

Поддержка развёртывания моделей PyTorch и JAX

Ещё одним важным изменением в экосистеме LiteRT стала расширенная совместимость с другими фреймворками машинного обучения.

Runtime получает так называемую «первоклассную» поддержку конвертации моделей из PyTorch и JAX. Это позволяет разработчикам развёртывать модели, обученные в других фреймворках, непосредственно на устройствах с использованием LiteRT.

Согласно анонсу, эта возможность упрощает работу между различными фреймворками и позволяет развёртывать открытые модели, включая генеративные модели вроде Gemma, на edge-устройствах.

Фокус на генеративном AI на устройствах

Runtime LiteRT также ориентирован на поддержку новых типов AI-нагрузок, особенно генеративных моделей, которые могут выполняться локально на устройствах.

Google отмечает, что платформа позволяет запускать продвинутые AI-модели с сохранением преимуществ локального инференса — таких как минимальная задержка и повышенная конфиденциальность данных.

Компания также сообщила о сотрудничестве с производителями чипов для поддержки специализированного AI-оборудования. Первые интеграции уже доступны для аппаратных платформ MediaTek и Qualcomm.

Почему переход на новый runtime важен

Переход от TensorFlow Lite к LiteRT отражает более широкие изменения в подходе Google к инфраструктуре AI, работающего непосредственно на устройствах.

Если TensorFlow Lite в первую очередь создавался для ранних задач мобильного машинного обучения, то LiteRT ориентирован на новые категории нагрузок — включая генеративный AI и расширенное аппаратное ускорение.

С выходом TensorFlow 2.21 LiteRT становится ключевым runtime для таких задач, предоставляя разработчикам единую платформу для развёртывания моделей машинного обучения на мобильных устройствах, настольных системах, встроенных платформах и в веб-среде.

Источники