Подразделение Microsoft Research объявило об открытии исходного кода AgentRx — специализированного фреймворка, предназначенного для систематической отладки ИИ-агентов. Поскольку автономные системы переходят к сложным многоэтапным рабочим процессам, AgentRx предоставляет структурированный способ поиска «критической точки сбоя», после которой выполнение задачи становится невозможным.
Фреймворк решает проблему отсутствия прозрачности в длительных задачах ИИ, где выявление первопричины ошибки часто является трудоемким процессом, выполняемым вручную. Наряду с фреймворком Microsoft выпускает бенчмарк из 115 вручную аннотированных траекторий, чтобы помочь разработчикам создавать более устойчивые агентские системы.

Этот релиз — значимый шаг для разработчиков, работающих с автономными агентами. Вы можете следить за подобными техническими прорывами в нашем разделе новостей ИИ.
Автоматизированная диагностика для автономных агентов
Microsoft отмечает, что современные ИИ-агенты часто вероятностны и работают в долгосрочной перспективе, что затрудняет воспроизведение ошибок. AgentRx рассматривает выполнение агента как системную трассировку, используя многоэтапный конвейер для проверки действий на соответствие схемам инструментов и политикам домена.
Вместо того чтобы полагаться на LLM, которая должна «угадать», почему агент потерпел неудачу, AgentRx синтезирует исполняемые ограничения. Например, если агенту поручено управление данными, фреймворк гарантирует, что он не нарушит политики безопасности, такие как удаление данных без подтверждения.
Ключевые особенности фреймворка AgentRx
Тесты показывают, что AgentRx улучшает локализацию сбоев на 23,6% по сравнению со стандартными методами промптинга. |
Базовая таксономия ошибок ИИ-агентов
Чтобы стандартизировать понимание ошибок разработчиками, Microsoft вывела таксономию сбоев из девяти категорий, которая применима в различных областях: от рабочих процессов розничного API до сложного устранения системных неполадок.
Категории и таксономия ошибок AgentRx
| Категория | Описание | Пример первопричины |
|---|---|---|
| Нарушение плана | Игнорирование необходимых шагов или лишние действия | Агент пропустил обязательный этап подтверждения |
| Изобретение информации | Галлюцинации фактов, отсутствующих в выдаче инструментов | Утверждение, что файл удален, когда API выдал ошибку |
| Некорректный вызов | Ошибки в вызовах инструментов или отсутствие аргументов | Отправка строки в API, ожидающий целое число |
| Неверная интерпретация | Неправильное прочтение выходных данных инструмента | Предположение, что «404 Not Found» означает завершение задачи |
| Срабатывание защитных барьеров | Блокировка выполнения из-за ограничений безопасности | Попытка доступа к ограниченному системному каталогу |
Почему системная отладка важна для ИИ
По мере того как ИИ-агенты превращаются из простых чат-ботов в автономные системы, способные управлять облачной инфраструктурой или перемещаться по веб-интерфейсам, прозрачность становится обязательным условием для их внедрения.
По мнению исследовательской группы, предоставление «проверяемого лога валидации» позволяет инженерам выйти за рамки метода проб и ошибок в промптинге. Вместо того чтобы гадать, почему агент потерпел неудачу, разработчики теперь могут видеть точные доказательства нарушения, что делает системы значительно более надежными для корпоративного использования.
Релиз с открытым исходным кодом включает код фреймворка и аннотированный бенчмарк в таких доменах, как τ-bench и Magentic-One. Это соответствует более широкому тренду на повышение интерпретируемости сложных систем ИИ, аналогично недавним обновлениям в ChatGPT и моделях Google Gemini.



