Live Case Study · BearcatCTF 2026

Топ 6%.
40 из 44 задач решено.

Team Orange развернула Claw-Stack Trinity на BearcatCTF 2026. Опираясь на глубокий опыт команды в криптографии, форензике и binary exploitation, Trinity ускорила автономный рейт решений — заняв место #20 of 362 в онлайн-дивизионе.

#20

Место

из 362 команд

3084

Очки

онлайн-дивизион

40/44

Решено

задач

Top 6%

Процентиль

5.52% участников

Доказательство

Финальная таблица

Team Orange, место #20 из 362 команд, онлайн-дивизион.

bearcatctf.com/scoreboard

BearcatCTF 2026 Scoreboard — Team Orange rank #20

Прогресс

Очки во времени

Стабильная скорость набора очков на протяжении всего турнира — без плато. Trinity сохранила инерцию при возрастании сложности задач.

score_over_time.png

BearcatCTF 2026 Score Over Time — Team Orange

Эволюция архитектуры

Почему Trinity?

Архитектура эволюционировала благодаря сложному опыту.

Single Agent

Один agent обрабатывал разведку, решение и логирование. Context window быстро переполнялся на сложных задачах. Медленно переключался на ходу турнира.

Результат: переполнение контекста на сложных задачах

v2 ✅ Trinity

Commander · Librarian · Operator

Полностью развязанные. Каждый agent отвечает за одну когнитивную функцию. Контекст остается компактным. Переключение стратегии за секунды.

Результат: топ 6% глобально, 40/44 решено

The Framework

Trinity Architecture

Три специализированных agent, работающих как единое когнитивное целое. Каждый отвечает за отдельную функцию — вместе они замыкают цикл от определения проблемы до проверенной уязвимости.

Слой стратегии

⚔️ Commander

Нет прямого доступа к инструментам

отправляет команды

Слой знаний

📚 Librarian

Только топ-3 результата

CTF Knowledge Base · Web Search

Слой исполнения

⚙️ Operator

Изолированная область видимости

Docker · Scripts · Blackboard

возвращает результаты

Commander синтезирует результаты → обновляет план решения

Commander

Стратегия

Читает описания задач, определяет поверхность атаки, выбирает инструменты и подход. Отслеживает прогресс и переключает стратегию при блокировке. Единственный agent с правом записи в план решения.

→ Декомпозиция многоэтапных задач

→ Генерация гипотез и триаж

→ Распознавание закономерностей между задачами

Librarian

Знания

Извлекает и синтезирует релевантные криптографические статьи, CVE, решения и документацию инструментов в реальном времени. Подает структурированные знания непосредственно в контекст рассуждений Commander.

→ Ссылки на тропическую полукольцо и теорию решеток

→ Поиск в базе CVE и эксплойтов

→ Синтез корпуса решений CTF

Operator

Исполнение

Реализует эксплойты, запускает инструменты, анализирует выходные данные и отправляет флаги. Работает в изолированной среде с управляемым доступом к инструментам. Каждая команда shell проверяется перед выполнением.

→ Написание эксплойтов на Python/pwntools

→ Исполнение двоичных и криптографических инструментов

→ Изолировано, проверено, управляется политиками

Журнал живого исполнения

TwistedPair — задача криптографии

Восстановление приватной экспоненты RSA через остаток тропической полукольца. Решена за 32 минуты, полностью автономно.

trinity — TwistedPair

00:00 Задача получена. Категория: Crypto. Файл: twisted_pair.py, output.txt

00:02 [COMMANDER] Анализ структуры шифра — обнаружена нестандартная RSA с операциями тропической полукольца.

00:05 [LIBRARIAN] Извлечены: теория остатков тропической полукольца, статьи по решеточному криптоанализу, методы утечки экспоненты RSA.

00:08 [COMMANDER] Выявлена утечка приватной экспоненты RSA через остаток тропической полукольца. Путь эксплуатации подтвержден.

00:09 [RUNTIME] Предварительная проверка: скрипт эксплойта проверен. Нет неавторизованного исходящего трафика. Соответствует политике. ✓

00:11 [OPERATOR] Эксплойт выполнен. Приватный ключ восстановлен. Расшифровка шифртекста...

00:32 [OPERATOR] Флаг: BCCTF{D0n7_g37_m3_Tw157eD} ✓ Отправлен.

00:32 [AUDIT] Журнал выполнения запечатан. Время решения: 32 мин. Действия Agent: 14. Нарушений политики: 0.

Что это доказывает

Стратегические выводы

Результаты CTF в условиях конкурентного давления — самый честный критерий для оценки дизайна системы Agent. Вот что подтвердила BearcatCTF 2026.

Декларативное инструментарий

Поведение Agent, определенное через SOUL.md и config.json, означает, что специалистов для конкретных задач можно создать за минуты, а не часы. Без переделки — просто новая конфигурация.

Модульная когнитивная архитектура

Разделение Strategy (Commander), Knowledge (Librarian) и Execution (Operator) избегает контекстного раздутия и позволяет каждому Agent работать с максимальной глубиной в своей области.

Управление временем исполнения

Каждая команда shell проходит через Policy Engine. Нулевых нарушений политики во всех 40 решенных задачах. Автономная работа без ущерба для аудитируемости и безопасности.

Изучить архитектуру

Та же архитектура, которая решила 40 из 44 задач CTF, открыта для изучения — погрузитесь в модули, адаптируйте паттерны и создавайте свои.

Просмотр архитектуры → Изучить модули

Топ 6%. 40 из 44 задач решено.