最后更新:2026 年 3 月
BearcatCTF 2026 案例研究
在 BearcatCTF 2026 中,Claw-Stack 的 Trinity 架构完全自主参赛——没有人工解决任何题目。系统以 362 支队伍中排名第 20(前 6%) 的成绩,在 48 小时内解决了 44 题中的 40 题。
第 20 名
最终排名
362
参赛队伍总数
40/44
解题数
48 小时
比赛时间窗口
Trinity 架构
CTF 系统使用了称为 Trinity 的三智能体专用配置。每个智能体有独特的角色、模型和权限边界。它们通过共享黑板协调——一个持久的键值存储,追踪题目状态、发现的凭证和失败的方法。
指挥官
CIPHER Claude Opus 4 战略大脑。CIPHER 负责每道题的全生命周期管理:阅读题目描述、分解为子任务、维护黑板、生成操作员实例执行任务,以及咨询情报官补充知识盲区。CIPHER 从不直接执行系统命令。
操作员
GRUNT Claude Sonnet 4 战术执行者。GRUNT 从 CIPHER 接收具体子任务(含黑板的完整上下文),在隔离的 Docker 容器中执行 shell 命令和漏洞利用脚本,将结果以结构化 JSON 返回,并自主处理微观层面的错误。GRUNT 在任务间上下文重置——有意设计为无状态。
情报官
SAGE Claude Haiku 4 知识专家。SAGE 处理所有研究任务,让 CIPHER 和 GRUNT 专注于执行。它搜索本地 CTF 知识库寻找相关技术,查询 CTFTools 获取工具使用模式,在本地知识不足时通过网络搜索 CVE 和题目解题报告。每次最多返回 3 个结果以避免上下文膨胀。
题目类别分析
| 类别 | 解题数 | 备注 |
|---|---|---|
| Web | 12/12 | GRUNT 在 SQL 注入、SSRF 和 JWT 伪造方面表现突出 |
| 密码学 | 8/8 | SAGE 的知识库包含大多数攻击模式 |
| 杂项 | 7/8 | 一道题需要图像分析,超出当前能力 |
| 逆向工程 | 6/7 | 一道题涉及系统缺乏的视觉模式识别 |
| 取证 | 7/7 | 内存转储、磁盘镜像和数据包捕获表现优异 |
| 二进制漏洞利用 (Pwn) | 5/5 | GRUNT 处理了缓冲区溢出、ROP 链和格式化字符串 |
| OSINT | 3/5 | 基于图像的侦察受限于薄弱的视觉分析能力 |
| Web | 4/4 | GRUNT 擅长 SQLi、SSRF 和 JWT 伪造 |
| 合计 | 40/44(91%) | 362 队中第 20 名——前 6% |
经验教训
黑板防止重复。没有失败尝试日志,GRUNT 反复尝试相同的堆漏洞利用方法。黑板实现后,死胡同方法不再被重试。
无状态 GRUNT 扩展性好。将 GRUNT 作为无状态执行器运行(每任务上下文重置)允许 CIPHER 生成多个并行 GRUNT 实例而不产生上下文窗口冲突。
用 Haiku 做知识检索性价比高。SAGE 使用 Claude Haiku 4,响应快速且成本低。大多数知识检索不需要前沿模型推理——它是搜索和检索,而非合成。
图像分析是当前瓶颈。4 道未解题目(1 道逆向、2 道 OSINT、1 道杂项)都需要视觉/图像分析——识别图像中的模式、从截图读取文字或解读视觉线索。这是当前基于 LLM 的智能体系统的已知弱点。
常见问题
比赛期间有人工解题吗?
没有。系统在整个 48 小时窗口内完全自主运行。人工操作员监控了控制台,但没有介入任何题目。所有 40 个 flag 都由 Trinity 系统在没有人工协助的情况下捕获并提交。
4 道未解题目是什么?
1 道逆向工程、2 道 OSINT、1 道杂项。这四道题都需要图像或视觉分析——识别模式、从图像中读取文字或解读视觉线索——这是当前基于 LLM 的智能体系统的已知局限。
Authors: Qiushi Wu & Orange 🍊