🐾 claw-stack

最終更新:2026年3月

BearcatCTF 2026 ケーススタディ

BearcatCTF 2026 では、Claw-Stack の Trinity アーキテクチャが完全に自律的に参戦しました——人間が一問も解いていません。システムは 362 チーム中 20 位(上位 6%) を達成し、48 時間で 44 問中 40 問 を解決しました。

20位

最終順位

362

総チーム数

40/44

解決問題数

48時間

競技ウィンドウ

Trinity アーキテクチャ

CTF システムは Trinity と呼ばれる特化した 3 エージェント構成を使用しました。各エージェントは独自の役割、モデル、権限境界を持ちます。共有ブラックボード——問題の状態、発見された認証情報、失敗したアプローチを追跡する永続的なキーバリューストア——を通じて調整します。

コマンダー

CIPHER Claude Opus 4

戦略的な頭脳。CIPHER は各問題のフルライフサイクル管理を担います:問題文の読み込み、サブタスクへの分解、ブラックボードの維持、実行のためのオペレーターインスタンスの生成、知識の空白に対するライブラリアンへの相談。CIPHER はシステムコマンドを直接実行しません。

オペレーター

GRUNT Claude Sonnet 4

戦術的な実行者。GRUNT は CIPHER から特定のサブタスク(ブラックボードの完全コンテキスト付き)を受け取り、隔離された Docker コンテナでシェルコマンドとエクスプロイトスクリプトを実行し、結果を構造化 JSON で返し、マイクロレベルのエラーを自律的に処理します。GRUNT のコンテキストはタスク間でリセットされます——ステートレス設計です。

ライブラリアン

SAGE Claude Haiku 4

知識スペシャリスト。SAGE はすべての調査タスクを処理し、CIPHER と GRUNT が実行に集中できるようにします。ローカル CTFKnowledges データベースで関連テクニックを検索し、CTFTools でツールとその使用パターンをクエリし、ローカルの知識が不十分な場合は CVE やライトアップをウェブ検索します。コンテキストの膨張を防ぐため最大 3 件の結果を返します。

問題カテゴリ別分析

カテゴリ 解決数 備考
暗号 8/8 SAGE のナレッジベースにほとんどの攻撃パターンが含まれていた
Misc 7/8 1 問は画像分析が必要で、現在の能力を超えていた
リバースエンジニアリング 6/7 1 問はシステムが持たない視覚パターン認識が必要だった
フォレンジクス 7/7 メモリダンプ、ディスクイメージ、パケットキャプチャで優秀な成績
バイナリエクスプロイト (Pwn) 5/5 GRUNT はバッファオーバーフロー、ROP チェーン、フォーマットストリングに対応
OSINT 3/5 画像ベースの偵察は弱い視覚分析能力に制限された
Web 4/4 GRUNT は SQL インジェクション、SSRF、JWT 偽造で優秀
合計 40/44(91%) 362 チーム中 20 位——上位 6%

学んだ教訓

01

ブラックボードが重複を防ぐ。失敗試行ログがなければ、GRUNT はヒープ問題で同じアプローチを繰り返しました。ブラックボード実装後、行き詰まりのアプローチは再試行されませんでした。

02

ステートレス GRUNT はスケールしやすい。GRUNT をステートレスな実行器として動かすことで(タスクごとにコンテキストリセット)、CIPHER はコンテキストウィンドウの競合なしに複数の並行 GRUNT インスタンスを生成できました。

03

ナレッジ取得に Haiku はコスト効率が良い。SAGE は Claude Haiku 4 を使用し、速く安価に回答を返しました。ほとんどのナレッジ取得はフロンティアモデルの推論を必要としません——検索と取得であり、合成ではありません。

04

画像分析が現在のボトルネック。解けなかった 4 問(Rev 1 問、OSINT 2 問、Misc 1 問)はすべて視覚/画像分析が必要でした——画像内のパターン認識、スクリーンショットからのテキスト読み取り、視覚的手がかりの解釈。これは現在の LLM ベースエージェントシステムの既知の弱点です。

よくある質問

競技中に人間が問題を解きましたか?

いいえ。システムは 48 時間のウィンドウ全体にわたって完全に自律的に動作しました。人間のオペレーターはダッシュボードを監視しましたが、一問にも介入しませんでした。すべての 40 個のフラグは Trinity システムによって人間の支援なしに取得・提出されました。

解けなかった 4 問は何でしたか?

リバースエンジニアリング 1 問、OSINT 2 問、Misc 1 問。4 問すべてが画像または視覚分析を必要としました——これは現在の LLM ベースエージェントシステムの既知の限界です。

Authors: Qiushi Wu & Orange 🍊