Підрозділ Microsoft Research оголосив про вихід у відкритий доступ AgentRx — спеціалізованого фреймворку, розробленого для систематичної відладки ШІ-агентів. Оскільки автономні системи переходять до складних багатоетапних робочих процесів, AgentRx пропонує структурований спосіб визначення «критичного кроку збою», після якого виконання завдання стає неможливим.
Фреймворк вирішує проблему браку прозорості у тривалих завданнях ШІ, де пошук першопричини помилки часто є важким ручним процесом. Разом із фреймворком Microsoft випускає бенчмарк із 115 вручну анотованих траєкторій, щоб допомогти розробникам створювати більш стійкі агентські системи.

Цей реліз є значущим кроком для розробників, які працюють з автономними агентами. Ви можете стежити за подібними технічними проривами у нашому розділі новин ШІ.
Автоматизована діагностика для автономних агентів
Microsoft зазначає, що сучасні ШІ-агенти часто є імовірнісними та працюють на довгих дистанціях, що ускладнює відтворення помилок. AgentRx розглядає виконання агента як системне трасування, використовуючи багатоетапний конвідер для перевірки дій на відповідність схемам інструментів та політикам домену.
Замість того, щоб покладатися на LLM, яка має «вгадати», чому агент зазнав невдачі, AgentRx синтезує виконувані обмеження. Наприклад, якщо агенту доручено керування даними, фреймворк гарантує, що він не порушить політики безпеки, такі як видалення даних без підтвердження.
Ключові особливості фреймворку AgentRx
Тести показують, що AgentRx покращує локалізацію збоїв на 23,6% порівняно зі стандартними методами промптингу. |
Базова таксономія помилок ШІ-агентів
Щоб стандартизувати розуміння помилок розробниками, Microsoft вивела таксономію збоїв із дев’яти категорій, яка застосовна у різних сферах: від робочих процесів роздрібного API до складного усунення системних несправностей.
Категорії та таксономія помилок AgentRx
| Категорія | Опис | Приклад першопричини |
|---|---|---|
| Порушення плану | Ігнорування необхідних кроків або зайві дії | Агент пропустив обов’язковий етап підтвердження |
| Вигадування інформації | Галюцинації фактів, яких не було у видачі інструментів | Ствердження, що файл видалено, коли API видав помилку |
| Некоректний виклик | Помилки у викликах інструментів або відсутність аргументів | Відправка рядка в API, що очікує ціле число |
| Невірна інтерпретація | Неправильне прочитання вихідних даних інструменту | Припущення, що «404 Not Found» означає завершення завдання |
| Спрацювання захисних бар’єрів | Блокування виконання через обмеження безпеки | Спроба доступу до обмеженого системного каталогу |
Чому системна відладка важлива для ШІ
У міру того як ШІ-агенти перетворюються з простих чат-ботів на автономні системи, здатні керувати хмарною інфраструктурою або взаємодіяти з веб-інтерфейсами, прозорість стає обов’язковою умовою для їх впровадження.
На думку дослідницької групи, надання «валідаційного логу, що підлягає аудиту» дозволяє інженерам вийти за межі методу спроб і помилок у промптингу. Замість того, щоб гадати, чому агент зазнав невдачі, розробники тепер можуть бачити точні докази порушення, що робить системи значно надійнішими для корпоративного використання.
Реліз із відкритим вихідним кодом включає код фреймворку та анотований бенчмарк у таких доменах, як τ-bench та Magentic-One. Це відповідає ширшому тренду на підвищення інтерпретованості складних систем ШІ, аналогічно нещодавнім оновленням у ChatGPT та моделях Google Gemini.



