🐾 claw-stack
BearcatCTF 2026
Live Case Study · BearcatCTF 2026

Топ 6%.
40 из 44 задач решено.

Team Orange развернула Claw-Stack Trinity на BearcatCTF 2026. Опираясь на глубокий опыт команды в криптографии, форензике и binary exploitation, Trinity ускорила автономный рейт решений — заняв место #20 of 362 в онлайн-дивизионе.

#20

Место

из 362 команд

3084

Очки

онлайн-дивизион

40/44

Решено

задач

Top 6%

Процентиль

5.52% участников

Доказательство

Финальная таблица

Team Orange, место #20 из 362 команд, онлайн-дивизион.

bearcatctf.com/scoreboard
BearcatCTF 2026 Scoreboard — Team Orange rank #20

Прогресс

Очки во времени

Стабильная скорость набора очков на протяжении всего турнира — без плато. Trinity сохранила инерцию при возрастании сложности задач.

score_over_time.png
BearcatCTF 2026 Score Over Time — Team Orange

Эволюция архитектуры

Почему Trinity?

Архитектура эволюционировала благодаря сложному опыту.

v1

Single Agent

Один agent обрабатывал разведку, решение и логирование. Context window быстро переполнялся на сложных задачах. Медленно переключался на ходу турнира.

Результат: переполнение контекста на сложных задачах
v2 ✅ Trinity

Commander · Librarian · Operator

Полностью развязанные. Каждый agent отвечает за одну когнитивную функцию. Контекст остается компактным. Переключение стратегии за секунды.

Результат: топ 6% глобально, 40/44 решено

The Framework

Trinity Architecture

Три специализированных agent, работающих как единое когнитивное целое. Каждый отвечает за отдельную функцию — вместе они замыкают цикл от определения проблемы до проверенной уязвимости.

Слой стратегии
⚔️ Commander
Нет прямого доступа к инструментам
отправляет команды
отправляет команды
Слой знаний
📚 Librarian
Только топ-3 результата
CTF Knowledge Base · Web Search
Слой исполнения
⚙️ Operator
Изолированная область видимости
Docker · Scripts · Blackboard
возвращает результаты
возвращает результаты
Commander синтезирует результаты → обновляет план решения

Commander

Стратегия

Читает описания задач, определяет поверхность атаки, выбирает инструменты и подход. Отслеживает прогресс и переключает стратегию при блокировке. Единственный agent с правом записи в план решения.

Декомпозиция многоэтапных задач
Генерация гипотез и триаж
Распознавание закономерностей между задачами

Librarian

Знания

Извлекает и синтезирует релевантные криптографические статьи, CVE, решения и документацию инструментов в реальном времени. Подает структурированные знания непосредственно в контекст рассуждений Commander.

Ссылки на тропическую полукольцо и теорию решеток
Поиск в базе CVE и эксплойтов
Синтез корпуса решений CTF

Operator

Исполнение

Реализует эксплойты, запускает инструменты, анализирует выходные данные и отправляет флаги. Работает в изолированной среде с управляемым доступом к инструментам. Каждая команда shell проверяется перед выполнением.

Написание эксплойтов на Python/pwntools
Исполнение двоичных и криптографических инструментов
Изолировано, проверено, управляется политиками

Журнал живого исполнения

TwistedPair — задача криптографии

Восстановление приватной экспоненты RSA через остаток тропической полукольца. Решена за 32 минуты, полностью автономно.

trinity — TwistedPair
00:00 Задача получена. Категория: Crypto. Файл: twisted_pair.py, output.txt
00:02 [COMMANDER] Анализ структуры шифра — обнаружена нестандартная RSA с операциями тропической полукольца.
00:05 [LIBRARIAN] Извлечены: теория остатков тропической полукольца, статьи по решеточному криптоанализу, методы утечки экспоненты RSA.
00:08 [COMMANDER] Выявлена утечка приватной экспоненты RSA через остаток тропической полукольца. Путь эксплуатации подтвержден.
00:09 [RUNTIME] Предварительная проверка: скрипт эксплойта проверен. Нет неавторизованного исходящего трафика. Соответствует политике. ✓
00:11 [OPERATOR] Эксплойт выполнен. Приватный ключ восстановлен. Расшифровка шифртекста...
00:32 [OPERATOR] Флаг: BCCTF{D0n7_g37_m3_Tw157eD} ✓ Отправлен.
00:32 [AUDIT] Журнал выполнения запечатан. Время решения: 32 мин. Действия Agent: 14. Нарушений политики: 0.

Что это доказывает

Стратегические выводы

Результаты CTF в условиях конкурентного давления — самый честный критерий для оценки дизайна системы Agent. Вот что подтвердила BearcatCTF 2026.

Декларативное инструментарий

Поведение Agent, определенное через SOUL.md и config.json, означает, что специалистов для конкретных задач можно создать за минуты, а не часы. Без переделки — просто новая конфигурация.

Модульная когнитивная архитектура

Разделение Strategy (Commander), Knowledge (Librarian) и Execution (Operator) избегает контекстного раздутия и позволяет каждому Agent работать с максимальной глубиной в своей области.

Управление временем исполнения

Каждая команда shell проходит через Policy Engine. Нулевых нарушений политики во всех 40 решенных задачах. Автономная работа без ущерба для аудитируемости и безопасности.

Изучить архитектуру

Та же архитектура, которая решила 40 из 44 задач CTF, открыта для изучения — погрузитесь в модули, адаптируйте паттерны и создавайте свои.