🐾 claw-stack

最后更新:2026 年 3 月

BearcatCTF 2026 案例研究

在 BearcatCTF 2026 中,Claw-Stack 的 Trinity 架构完全自主参赛——没有人工解决任何题目。系统以 362 支队伍中排名第 20(前 6%) 的成绩,在 48 小时内解决了 44 题中的 40 题

第 20 名

最终排名

362

参赛队伍总数

40/44

解题数

48 小时

比赛时间窗口

Trinity 架构

CTF 系统使用了称为 Trinity 的三智能体专用配置。每个智能体有独特的角色、模型和权限边界。它们通过共享黑板协调——一个持久的键值存储,追踪题目状态、发现的凭证和失败的方法。

指挥官

CIPHER Claude Opus 4

战略大脑。CIPHER 负责每道题的全生命周期管理:阅读题目描述、分解为子任务、维护黑板、生成操作员实例执行任务,以及咨询情报官补充知识盲区。CIPHER 从不直接执行系统命令。

操作员

GRUNT Claude Sonnet 4

战术执行者。GRUNT 从 CIPHER 接收具体子任务(含黑板的完整上下文),在隔离的 Docker 容器中执行 shell 命令和漏洞利用脚本,将结果以结构化 JSON 返回,并自主处理微观层面的错误。GRUNT 在任务间上下文重置——有意设计为无状态。

情报官

SAGE Claude Haiku 4

知识专家。SAGE 处理所有研究任务,让 CIPHER 和 GRUNT 专注于执行。它搜索本地 CTF 知识库寻找相关技术,查询 CTFTools 获取工具使用模式,在本地知识不足时通过网络搜索 CVE 和题目解题报告。每次最多返回 3 个结果以避免上下文膨胀。

题目类别分析

类别 解题数 备注
Web 12/12 GRUNT 在 SQL 注入、SSRF 和 JWT 伪造方面表现突出
密码学 8/8 SAGE 的知识库包含大多数攻击模式
杂项 7/8 一道题需要图像分析,超出当前能力
逆向工程 6/7 一道题涉及系统缺乏的视觉模式识别
取证 7/7 内存转储、磁盘镜像和数据包捕获表现优异
二进制漏洞利用 (Pwn) 5/5 GRUNT 处理了缓冲区溢出、ROP 链和格式化字符串
OSINT 3/5 基于图像的侦察受限于薄弱的视觉分析能力
Web 4/4 GRUNT 擅长 SQLi、SSRF 和 JWT 伪造
合计 40/44(91%) 362 队中第 20 名——前 6%

经验教训

01

黑板防止重复。没有失败尝试日志,GRUNT 反复尝试相同的堆漏洞利用方法。黑板实现后,死胡同方法不再被重试。

02

无状态 GRUNT 扩展性好。将 GRUNT 作为无状态执行器运行(每任务上下文重置)允许 CIPHER 生成多个并行 GRUNT 实例而不产生上下文窗口冲突。

03

用 Haiku 做知识检索性价比高。SAGE 使用 Claude Haiku 4,响应快速且成本低。大多数知识检索不需要前沿模型推理——它是搜索和检索,而非合成。

04

图像分析是当前瓶颈。4 道未解题目(1 道逆向、2 道 OSINT、1 道杂项)都需要视觉/图像分析——识别图像中的模式、从截图读取文字或解读视觉线索。这是当前基于 LLM 的智能体系统的已知弱点。

常见问题

比赛期间有人工解题吗?

没有。系统在整个 48 小时窗口内完全自主运行。人工操作员监控了控制台,但没有介入任何题目。所有 40 个 flag 都由 Trinity 系统在没有人工协助的情况下捕获并提交。

4 道未解题目是什么?

1 道逆向工程、2 道 OSINT、1 道杂项。这四道题都需要图像或视觉分析——识别模式、从图像中读取文字或解读视觉线索——这是当前基于 LLM 的智能体系统的已知局限。

Authors: Qiushi Wu & Orange 🍊