Главная » Новости ИИ » Microsoft выпустила AgentRx: решение с открытым кодом для автоматической отладки ИИ-агентов

Microsoft выпустила AgentRx: решение с открытым кодом для автоматической отладки ИИ-агентов

by Redactor
13.03.2026
1 min read
34 Views

Share on:

Подразделение Microsoft Research объявило об открытии исходного кода AgentRx — специализированного фреймворка, предназначенного для систематической отладки ИИ-агентов. Поскольку автономные системы переходят к сложным многоэтапным рабочим процессам, AgentRx предоставляет структурированный способ поиска «критической точки сбоя», после которой выполнение задачи становится невозможным.

Фреймворк решает проблему отсутствия прозрачности в длительных задачах ИИ, где выявление первопричины ошибки часто является трудоемким процессом, выполняемым вручную. Наряду с фреймворком Microsoft выпускает бенчмарк из 115 вручную аннотированных траекторий, чтобы помочь разработчикам создавать более устойчивые агентские системы.

Схема диагностического конвейера Microsoft AgentRx, показывающая синтез ограничений и валидацию — Рабочий процесс AgentRx: от неудачной траектории и схем инструментов до логов нарушений с доказательствами и выявления первопричины.

Этот релиз — значимый шаг для разработчиков, работающих с автономными агентами. Вы можете следить за подобными техническими прорывами в нашем разделе новостей ИИ.

Автоматизированная диагностика для автономных агентов

Microsoft отмечает, что современные ИИ-агенты часто вероятностны и работают в долгосрочной перспективе, что затрудняет воспроизведение ошибок. AgentRx рассматривает выполнение агента как системную трассировку, используя многоэтапный конвейер для проверки действий на соответствие схемам инструментов и политикам домена.

Вместо того чтобы полагаться на LLM, которая должна «угадать», почему агент потерпел неудачу, AgentRx синтезирует исполняемые ограничения. Например, если агенту поручено управление данными, фреймворк гарантирует, что он не нарушит политики безопасности, такие как удаление данных без подтверждения.

Ключевые особенности фреймворка AgentRx

Нормализация траектории: Преобразование логов из разных доменов (веб, API, файлы) в единое представление.
Синтез ограничений: Автоматическая генерация «защитных» правил на основе определений инструментов.
Контролируемая оценка: Пошаговая проверка на нарушения с ведением логов, подкрепленных доказательствами.
Локализация критического сбоя: Точное определение этапа, на котором траектория впервые отклонилась от цели.

Тесты показывают, что AgentRx улучшает локализацию сбоев на 23,6% по сравнению со стандартными методами промптинга.

Базовая таксономия ошибок ИИ-агентов

Чтобы стандартизировать понимание ошибок разработчиками, Microsoft вывела таксономию сбоев из девяти категорий, которая применима в различных областях: от рабочих процессов розничного API до сложного устранения системных неполадок.

Категории и таксономия ошибок AgentRx

Категория	Описание	Пример первопричины
Нарушение плана	Игнорирование необходимых шагов или лишние действия	Агент пропустил обязательный этап подтверждения
Изобретение информации	Галлюцинации фактов, отсутствующих в выдаче инструментов	Утверждение, что файл удален, когда API выдал ошибку
Некорректный вызов	Ошибки в вызовах инструментов или отсутствие аргументов	Отправка строки в API, ожидающий целое число
Неверная интерпретация	Неправильное прочтение выходных данных инструмента	Предположение, что «404 Not Found» означает завершение задачи
Срабатывание защитных барьеров	Блокировка выполнения из-за ограничений безопасности	Попытка доступа к ограниченному системному каталогу

Почему системная отладка важна для ИИ

По мере того как ИИ-агенты превращаются из простых чат-ботов в автономные системы, способные управлять облачной инфраструктурой или перемещаться по веб-интерфейсам, прозрачность становится обязательным условием для их внедрения.

По мнению исследовательской группы, предоставление «проверяемого лога валидации» позволяет инженерам выйти за рамки метода проб и ошибок в промптинге. Вместо того чтобы гадать, почему агент потерпел неудачу, разработчики теперь могут видеть точные доказательства нарушения, что делает системы значительно более надежными для корпоративного использования.

Релиз с открытым исходным кодом включает код фреймворка и аннотированный бенчмарк в таких доменах, как τ-bench и Magentic-One. Это соответствует более широкому тренду на повышение интерпретируемости сложных систем ИИ, аналогично недавним обновлениям в ChatGPT и моделях Google Gemini.