Live Case Study · BearcatCTF 2026

상위 6%.
44 중 40개 챌린지 해결.

Team Orange는 BearcatCTF 2026에서 Claw-Stack Trinity를 배포했습니다. 암호화, 포렌식, 바이너리 익스플로잇 분야에 걸친 깊은 팀 전문성을 바탕으로 Trinity는 자율 해결 속도를 가속화하여 순위 #20 of 362 을 기록했습니다(온라인 부문).

#20

순위

362개 팀 중

3084

점수

온라인 부문

40/44

해결

챌린지

Top 6%

백분위

전체 상위 5.52%

증거

최종 순위표

Team Orange, 362개 팀 중 20위, 온라인 부문.

bearcatctf.com/scoreboard

BearcatCTF 2026 Scoreboard — Team Orange rank #20

진행 상황

시간에 따른 점수

경쟁 기간 동안 지속된 점수 상승률 — 정체 없음. Trinity는 챌린지 난이도가 증가해도 추진력을 유지했습니다.

score_over_time.png

BearcatCTF 2026 Score Over Time — Team Orange

아키텍처 진화

왜 Trinity인가?

아키텍처는 힘든 교훈에서 비롯되었습니다.

Single Agent

하나의 Agent가 정찰, 해결, 로깅을 처리했습니다. 복잡한 챌린지에서 컨텍스트 윈도우가 빠르게 찼습니다. 경쟁 중 전환이 느렸습니다.

결과: 어려운 챌린지에서 컨텍스트 오버플로우

v2 ✅ Trinity

Commander · Librarian · Operator

완전히 분리됨. 각 Agent는 하나의 인지적 책임을 소유합니다. 컨텍스트는 가볍게 유지됩니다. 전략 전환은 수초 내에 가능합니다.

결과: 전 세계 상위 6%, 40/44 해결

프레임워크

Trinity Architecture

인지적 단위로 작동하는 세 가지 특화된 Agent. 각각은 서로 다른 기능을 소유합니다 — 함께 문제 식별부터 검증된 익스플로잇까지 루프를 닫습니다.

Strategy Layer

⚔️ Commander

직접 도구 접근 불가

dispatches

Knowledge Layer

📚 Librarian

상위 3개 결과만

CTF Knowledge Base · Web Search

Execution Layer

⚙️ Operator

샌드박스 범위

Docker · Scripts · Blackboard

returns results

Commander synthesizes results → updates solve plan

Commander

Strategy

챌린지 설명을 읽고, 공격 표면을 식별하고, 도구와 접근 방식을 선택합니다. 진행 상황을 모니터링하고 막혔을 때 전략을 전환합니다. 해결 계획에 대한 쓰기 접근 권한을 가진 유일한 Agent입니다.

→ 다단계 챌린지 분해

→ 가설 생성 및 분류

→ 챌린지 간 패턴 인식

Librarian

Knowledge

관련 암호화 논문, CVE, writeup 및 도구 설명서를 실시간으로 검색하고 합성합니다. 구조화된 지식을 Commander의 추론 context에 직접 공급합니다.

→ Tropical semiring & lattice theory 참고 자료

→ CVE & exploit 데이터베이스 조회

→ CTF writeup corpus 합성

Operator

Execution

Exploit을 구현하고, 도구를 실행하며, 출력을 파싱하고, flag를 제출합니다. 정책 기반 도구 액세스가 있는 샌드박스 환경 내에서 작동합니다. 모든 shell 명령은 실행 전에 감시됩니다.

→ Python/pwntools exploit 스크립팅

→ Binary & crypto 도구 실행

→ 샌드박스, 감시됨, 정책 기반

Live Execution Log

TwistedPair — Crypto Challenge

Tropical semiring residuation을 통한 RSA 개인 지수 복구. 32분 내 자율 종단 간 해결.

trinity — TwistedPair

00:00 Challenge 수신. Category: Crypto. File: twisted_pair.py, output.txt

00:02 [COMMANDER] Cipher 구조 분석 중 — 비표준 RSA with Tropical semiring operations 감지됨.

00:05 [LIBRARIAN] 검색됨: Tropical semiring residuation 이론, lattice 기반 암호분석 논문, RSA 지수 유출 방법.

00:08 [COMMANDER] Tropical semiring residuation을 통한 RSA 개인 지수 유출 확인. Exploit 경로 확인됨.

00:09 [RUNTIME] Pre-execution 감시: exploit 스크립트 검토됨. 무단 egress 없음. Policy 준수. ✓

00:11 [OPERATOR] Exploit 실행됨. 개인 키 복구됨. Ciphertext 복호화 중...

00:32 [OPERATOR] Flag: BCCTF{D0n7_g37_m3_Tw157eD} ✓ 제출됨.

00:32 [AUDIT] Execution log 봉인됨. Solve time: 32분. Agent actions: 14. Policy violations: 0.

이것이 증명하는 것

전략적 통찰

경쟁 압박 속 CTF 결과는 Agent 시스템 설계를 위한 가장 정직한 벤치마크입니다. BearcatCTF 2026이 검증한 내용입니다.

선언적 Tooling

SOUL.md 및 config.json을 통해 정의된 Agent 행동은 챌린지 특화 전문가를 시간이 아닌 분 단위로 구성할 수 있습니다. 재설계 불필요 — 새로운 설정만 있으면 됩니다.

Modular Cognitive Architecture

Strategy (Commander), Knowledge (Librarian), Execution (Operator)을 분리하면 context bloat을 제거하고 각 Agent가 자신의 영역 내에서 최고의 깊이로 작동할 수 있습니다.

Runtime Governance

모든 shell 명령은 Policy Engine을 통과합니다. 40개의 해결된 챌린지 전체에 걸쳐 0개의 정책 위반. 감시 가능성이나 안전을 희생하지 않는 자율 작동.

Architecture 탐색하기

40개의 CTF 챌린지를 해결한 동일한 Architecture는 탐색에 열려 있습니다 — 모듈을 파고들고, 패턴을 적용하고, 자신만의 것을 만드세요.

Architecture 보기 → Modules 탐색하기

상위 6%. 44 중 40개 챌린지 해결.