BearcatCTF 2026 比赛期间有人工解题吗？

没有。系统在整个 48 小时窗口内完全自主运行。所有 40 个 flag 都由 Trinity 系统（CIPHER、GRUNT、SAGE）在没有人工协助的情况下捕获并提交。

Claw-Stack 在 BearcatCTF 2026 取得了什么成绩？

Claw-Stack 的 Trinity 架构（指挥官 CIPHER、操作员 GRUNT、情报官 SAGE）在 362 支队伍中排名第 20，位列前 6%，48 小时内自主解决了 44 题中的 40 题，无需人工干预。

最后更新：2026 年 3 月

在 BearcatCTF 2026 中，Claw-Stack 的 Trinity 架构完全自主参赛——没有人工解决任何题目。系统以 362 支队伍中排名第 20（前 6%） 的成绩，在 48 小时内解决了 44 题中的 40 题。

第 20 名

最终排名

362

参赛队伍总数

40/44

解题数

48 小时

比赛时间窗口

CTF 系统使用了称为 Trinity 的三智能体专用配置。每个智能体有独特的角色、模型和权限边界。它们通过共享黑板协调——一个持久的键值存储，追踪题目状态、发现的凭证和失败的方法。

指挥官

CIPHER Claude Opus 4

战略大脑。CIPHER 负责每道题的全生命周期管理：阅读题目描述、分解为子任务、维护黑板、生成操作员实例执行任务，以及咨询情报官补充知识盲区。CIPHER 从不直接执行系统命令。

操作员

GRUNT Claude Sonnet 4

战术执行者。GRUNT 从 CIPHER 接收具体子任务（含黑板的完整上下文），在隔离的 Docker 容器中执行 shell 命令和漏洞利用脚本，将结果以结构化 JSON 返回，并自主处理微观层面的错误。GRUNT 在任务间上下文重置——有意设计为无状态。

情报官

SAGE Claude Haiku 4

知识专家。SAGE 处理所有研究任务，让 CIPHER 和 GRUNT 专注于执行。它搜索本地 CTF 知识库寻找相关技术，查询 CTFTools 获取工具使用模式，在本地知识不足时通过网络搜索 CVE 和题目解题报告。每次最多返回 3 个结果以避免上下文膨胀。

类别	解题数	备注
Web	12/12	GRUNT 在 SQL 注入、SSRF 和 JWT 伪造方面表现突出
密码学	8/8	SAGE 的知识库包含大多数攻击模式
杂项	7/8	一道题需要图像分析，超出当前能力
逆向工程	6/7	一道题涉及系统缺乏的视觉模式识别
取证	7/7	内存转储、磁盘镜像和数据包捕获表现优异
二进制漏洞利用 (Pwn)	5/5	GRUNT 处理了缓冲区溢出、ROP 链和格式化字符串
OSINT	3/5	基于图像的侦察受限于薄弱的视觉分析能力
Web	4/4	GRUNT 擅长 SQLi、SSRF 和 JWT 伪造
合计	40/44（91%）	362 队中第 20 名——前 6%

黑板防止重复。没有失败尝试日志，GRUNT 反复尝试相同的堆漏洞利用方法。黑板实现后，死胡同方法不再被重试。

无状态 GRUNT 扩展性好。将 GRUNT 作为无状态执行器运行（每任务上下文重置）允许 CIPHER 生成多个并行 GRUNT 实例而不产生上下文窗口冲突。

用 Haiku 做知识检索性价比高。SAGE 使用 Claude Haiku 4，响应快速且成本低。大多数知识检索不需要前沿模型推理——它是搜索和检索，而非合成。

图像分析是当前瓶颈。4 道未解题目（1 道逆向、2 道 OSINT、1 道杂项）都需要视觉/图像分析——识别图像中的模式、从截图读取文字或解读视觉线索。这是当前基于 LLM 的智能体系统的已知弱点。

比赛期间有人工解题吗？

没有。系统在整个 48 小时窗口内完全自主运行。人工操作员监控了控制台，但没有介入任何题目。所有 40 个 flag 都由 Trinity 系统在没有人工协助的情况下捕获并提交。

4 道未解题目是什么？

1 道逆向工程、2 道 OSINT、1 道杂项。这四道题都需要图像或视觉分析——识别模式、从图像中读取文字或解读视觉线索——这是当前基于 LLM 的智能体系统的已知局限。

Authors: Qiushi Wu & Orange 🍊