🐾 claw-stack
BearcatCTF 2026
ライブケーススタディ · BearcatCTF 2026

トップ6%。
44中40 チャレンジ解決。

Team OrangeはBearcatCTF 2026でClaw-Stack Trinityをデプロイしました。暗号化、フォレンジックス、バイナリ利用などの深い専門知識に基づき、Trinityは自律解決率を加速させ、ランク #20 of 362 をオンライン部門で達成しました。

#20

ランク

362チーム中

3084

スコア

オンライン部門

40/44

解決

チャレンジ

Top 6%

パーセンタイル

参加者の5.52%

証拠

最終スコアボード

Team Orange、362チーム中ランク#20、オンライン部門。

bearcatctf.com/scoreboard
BearcatCTF 2026 Scoreboard — Team Orange rank #20

進行

時間経過によるスコア

競技期間全体を通じた安定したスコアリング速度 — 停滞なし。Trinityはチャレンジの難易度が上がるにつれ、勢いを維持しました。

score_over_time.png
BearcatCTF 2026 Score Over Time — Team Orange

アーキテクチャの進化

なぜTrinity?

このアーキテクチャは厳しい教訓から進化しました。

v1

Single Agent

1つのAgentが偵察、解決、ロギングを処理しました。複雑なチャレンジではコンテキストウィンドウがすぐに満杯になりました。競技中のピボットは遅くなりました。

結果:難易度の高いチャレンジでコンテキストオーバーフロー
v2 ✅ Trinity

Commander · Librarian · Operator

完全に分離。各Agentは1つの認知的責務を所有しています。コンテキストは軽量のままです。戦略ピボットは数秒で実行されます。

結果:グローバルトップ6%、40/44解決

フレームワーク

Trinity Architecture

認知的ユニットとして動作する3つの専門化されたAgent。各々が異なる機能を所有しており、問題識別から検証済みの利用まで全体を完成させます。

Strategy Layer
⚔️ Commander
ツールへの直接アクセスなし
ディスパッチ
ディスパッチ
Knowledge Layer
📚 Librarian
トップ3結果のみ
CTF Knowledge Base · Web Search
Execution Layer
⚙️ Operator
サンドボックス化されたスコープ
Docker · Scripts · Blackboard
結果を返す
結果を返す
Commanderが結果を統合 → 解決計画を更新

Commander

Strategy

チャレンジの説明を読み、攻撃対象を識別し、ツールとアプローチを選択します。進捗を監視し、ブロックされたときに戦略をピボットします。解決計画に対する書き込みアクセスを持つ唯一のAgent。

複数ステップのチャレンジを分解
仮説生成とトリアージ
チャレンジ間のパターン認識

Librarian

知識

関連する暗号論文、CVE、ライトアップ、ツール ドキュメンテーションをリアルタイムで取得および統合します。構造化された知識を Commander の推論コンテキストに直接供給します。

熱帯半環と格子理論の参考資料
CVE およびエクスプロイト データベース検索
CTF ライトアップ コーパス統合

Operator

実行

エクスプロイトを実装し、ツーリングを実行し、出力を解析し、フラグを送信します。ポリシーに基づくツール アクセスを備えたサンドボックス環境で動作します。すべてのシェル コマンドは実行前に監査されます。

Python/pwntools エクスプロイト スクリプティング
バイナリ・暗号ツール実行
サンドボックス化、監査済み、ポリシー ガバナンス

ライブ実行ログ

TwistedPair — 暗号チャレンジ

熱帯半環残基化による RSA 秘密指数の復元。32 分で解決、完全自律的。

trinity — TwistedPair
00:00 チャレンジ受信。カテゴリー: 暗号。ファイル: twisted_pair.py、output.txt
00:02 [COMMANDER] 暗号構造を分析中 — 熱帯半環操作を伴う非標準 RSA を検出。
00:05 [LIBRARIAN] 取得完了: 熱帯半環残基化理論、格子ベース暗号解析論文、RSA 指数漏洩方法。
00:08 [COMMANDER] 熱帯半環残基化による RSA 秘密指数漏洩を特定。エクスプロイト パスを確認。
00:09 [RUNTIME] 実行前監査: エクスプロイト スクリプトを確認。不正な流出なし。ポリシー準拠。✓
00:11 [OPERATOR] エクスプロイト実行。秘密鍵を復元。暗号文を復号化中...
00:32 [OPERATOR] フラグ: BCCTF{D0n7_g37_m3_Tw157eD} ✓ 送信完了。
00:32 [AUDIT] 実行ログをシール。解決時間: 32 分。Agent アクション: 14。ポリシー違反: 0。

これが証明すること

戦略的な洞察

競争圧下での CTF 結果は、Agent システム設計の最も信頼できるベンチマークです。BearcatCTF 2026 が検証したものを紹介します。

宣言型ツーリング

SOUL.md および config.json を介して定義された Agent の動作により、チャレンジ固有のスペシャリストを数時間ではなく数分で起動できます。再エンジニアリング不要 — 新しい設定だけ。

モジュラー認知アーキテクチャ

Strategy (Commander)、Knowledge (Librarian)、Execution (Operator) を分離することで、コンテキスト オーバーフローを排除し、各 Agent がそのドメイン内でピーク深度で動作できるようにします。

ランタイム ガバナンス

すべてのシェル コマンドは Policy Engine を通じて処理されます。40 の解決されたチャレンジ全体でゼロ ポリシー違反。監査可能性と安全性を損なわない自律的な操作。

アーキテクチャを探索

44 個中 40 個の CTF チャレンジを解決したのと同じアーキテクチャは、探索、モジュール間を掘り下げ、パターンを適応させ、独自のものを構築する準備ができています。