ライブケーススタディ · BearcatCTF 2026

トップ6%。
44中40 チャレンジ解決。

Team OrangeはBearcatCTF 2026でClaw-Stack Trinityをデプロイしました。暗号化、フォレンジックス、バイナリ利用などの深い専門知識に基づき、Trinityは自律解決率を加速させ、ランク #20 of 362 をオンライン部門で達成しました。

#20

ランク

362チーム中

3084

スコア

オンライン部門

40/44

解決

チャレンジ

Top 6%

パーセンタイル

参加者の5.52%

証拠

最終スコアボード

Team Orange、362チーム中ランク#20、オンライン部門。

bearcatctf.com/scoreboard

BearcatCTF 2026 Scoreboard — Team Orange rank #20

進行

時間経過によるスコア

競技期間全体を通じた安定したスコアリング速度 — 停滞なし。Trinityはチャレンジの難易度が上がるにつれ、勢いを維持しました。

score_over_time.png

BearcatCTF 2026 Score Over Time — Team Orange

アーキテクチャの進化

なぜTrinity？

このアーキテクチャは厳しい教訓から進化しました。

Single Agent

1つのAgentが偵察、解決、ロギングを処理しました。複雑なチャレンジではコンテキストウィンドウがすぐに満杯になりました。競技中のピボットは遅くなりました。

結果：難易度の高いチャレンジでコンテキストオーバーフロー

v2 ✅ Trinity

Commander · Librarian · Operator

完全に分離。各Agentは1つの認知的責務を所有しています。コンテキストは軽量のままです。戦略ピボットは数秒で実行されます。

結果：グローバルトップ6%、40/44解決

フレームワーク

Trinity Architecture

認知的ユニットとして動作する3つの専門化されたAgent。各々が異なる機能を所有しており、問題識別から検証済みの利用まで全体を完成させます。

Strategy Layer

⚔️ Commander

ツールへの直接アクセスなし

ディスパッチ

Knowledge Layer

📚 Librarian

トップ3結果のみ

CTF Knowledge Base · Web Search

Execution Layer

⚙️ Operator

サンドボックス化されたスコープ

Docker · Scripts · Blackboard

結果を返す

Commanderが結果を統合 → 解決計画を更新

Commander

Strategy

チャレンジの説明を読み、攻撃対象を識別し、ツールとアプローチを選択します。進捗を監視し、ブロックされたときに戦略をピボットします。解決計画に対する書き込みアクセスを持つ唯一のAgent。

→ 複数ステップのチャレンジを分解

→ 仮説生成とトリアージ

→ チャレンジ間のパターン認識

Librarian

知識

関連する暗号論文、CVE、ライトアップ、ツールドキュメンテーションをリアルタイムで取得および統合します。構造化された知識を Commander の推論コンテキストに直接供給します。

→ 熱帯半環と格子理論の参考資料

→ CVE およびエクスプロイトデータベース検索

→ CTF ライトアップコーパス統合

Operator

実行

エクスプロイトを実装し、ツーリングを実行し、出力を解析し、フラグを送信します。ポリシーに基づくツールアクセスを備えたサンドボックス環境で動作します。すべてのシェルコマンドは実行前に監査されます。

→ Python/pwntools エクスプロイトスクリプティング

→ バイナリ・暗号ツール実行

→ サンドボックス化、監査済み、ポリシーガバナンス

ライブ実行ログ

TwistedPair — 暗号チャレンジ

熱帯半環残基化による RSA 秘密指数の復元。32 分で解決、完全自律的。

trinity — TwistedPair

00:00 チャレンジ受信。カテゴリー: 暗号。ファイル: twisted_pair.py、output.txt

00:02 [COMMANDER] 暗号構造を分析中 — 熱帯半環操作を伴う非標準 RSA を検出。

00:05 [LIBRARIAN] 取得完了: 熱帯半環残基化理論、格子ベース暗号解析論文、RSA 指数漏洩方法。

00:08 [COMMANDER] 熱帯半環残基化による RSA 秘密指数漏洩を特定。エクスプロイトパスを確認。

00:09 [RUNTIME] 実行前監査: エクスプロイトスクリプトを確認。不正な流出なし。ポリシー準拠。✓

00:11 [OPERATOR] エクスプロイト実行。秘密鍵を復元。暗号文を復号化中...

00:32 [OPERATOR] フラグ: BCCTF{D0n7_g37_m3_Tw157eD} ✓ 送信完了。

00:32 [AUDIT] 実行ログをシール。解決時間: 32 分。Agent アクション: 14。ポリシー違反: 0。

これが証明すること

戦略的な洞察

競争圧下での CTF 結果は、Agent システム設計の最も信頼できるベンチマークです。BearcatCTF 2026 が検証したものを紹介します。

宣言型ツーリング

SOUL.md および config.json を介して定義された Agent の動作により、チャレンジ固有のスペシャリストを数時間ではなく数分で起動できます。再エンジニアリング不要 — 新しい設定だけ。

モジュラー認知アーキテクチャ

Strategy (Commander)、Knowledge (Librarian)、Execution (Operator) を分離することで、コンテキストオーバーフローを排除し、各 Agent がそのドメイン内でピーク深度で動作できるようにします。

ランタイムガバナンス

すべてのシェルコマンドは Policy Engine を通じて処理されます。40 の解決されたチャレンジ全体でゼロポリシー違反。監査可能性と安全性を損なわない自律的な操作。

アーキテクチャを探索

44 個中 40 個の CTF チャレンジを解決したのと同じアーキテクチャは、探索、モジュール間を掘り下げ、パターンを適応させ、独自のものを構築する準備ができています。

アーキテクチャを表示 → モジュールを探索

トップ6%。 44中40 チャレンジ解決。