🐾 claw-stack
BearcatCTF 2026
实战案例 · BearcatCTF 2026

全球前 6%。
44 道中解出 40 道 挑战题目。

Orange 队在 BearcatCTF 2026 中部署了 Claw-Stack Trinity。基于团队在密码学、取证和二进制漏洞利用方面的深厚专业积累,Trinity 加速了自主求解速率 —— 最终排名 #20 of 362 在线赛区。

#20

排名

(共 362 支队伍)

3084

得分

在线赛区

40/44

解出

道题目

Top 6%

百分位

全场前 5.52%

证据

最终排行榜

Orange 队,排名 #20(共 362 支队伍),在线赛区。

bearcatctf.com/scoreboard
BearcatCTF 2026 Scoreboard — Team Orange rank #20

进度演进

随时间推移的得分

在整个比赛窗口期间保持持续的得分速度 —— 无平台期。Trinity 在挑战难度上升时保持了势头。

score_over_time.png
BearcatCTF 2026 Score Over Time — Team Orange

架构演进

为什么是 Trinity?

架构设计源于一次深刻的教训。

v1

单 Agent

一个 Agent 负责侦察、求解和日志记录。在复杂题目上,上下文窗口快速溢出。比赛中期难以快速调整策略。

结果:难题上发生上下文溢出
v2 ✅ Trinity

Commander · Librarian · Operator

完全解耦。每个 Agent 独立负责一项认知职责。上下文保持精简。策略可在秒级速度内调整。

结果:全球前 6%,40/44 题解出

框架介绍

Trinity 架构

三个专业化 Agent 作为认知单元协同运作。每个 Agent 拥有独特职能 —— 共同实现从问题识别到漏洞验证的完整闭环。

策略层
⚔️ Commander
无直接工具访问权限
分派任务至
分派任务至
知识层
📚 Librarian
仅返回前 3 结果
CTF 知识库 · 网页搜索
执行层
⚙️ Operator
沙箱隔离作用域
Docker · Scripts · Blackboard
返回结果至
返回结果至
Commander 综合结果 → 更新求解方案

Commander

策略

解读题目描述,识别攻击面,选择工具和方案。监控进展,遇阻时调整策略。唯一拥有求解方案写入权限的 Agent。

分解多步骤挑战
假设生成与分类
跨挑战模式识别

Librarian

知识库

实时检索和综合相关密码学论文、CVE、writeup 和工具文档。将结构化知识直接反馈到 Commander 的推理上下文中。

热带半环与格论参考资料
CVE 与漏洞数据库查询
CTF writeup 语料库综合

Operator

执行层

实现漏洞利用、运行工具、解析输出并提交 flag。在沙箱环境中操作,具有策略管制的工具访问权限。每条 shell 命令在执行前都经过审计。

Python/pwntools 漏洞利用脚本编写
二进制与密码工具执行
沙箱隔离、审计、策略管制

实时执行日志

TwistedPair — 密码挑战

通过热带半环残差化进行 RSA 私钥指数恢复。32 分钟内解决,端到端自主完成。

trinity — TwistedPair
00:00 已收到挑战。类别:密码学。文件:twisted_pair.py、output.txt
00:02 [COMMANDER] 分析密码结构——检测到非标准 RSA 与热带半环操作。
00:05 [LIBRARIAN] 已检索:热带半环残差化理论、基于格的密码分析论文、RSA 指数泄露方法。
00:08 [COMMANDER] 识别出通过热带半环残差化的 RSA 私钥指数泄露。利用路径已确认。
00:09 [RUNTIME] 执行前审计:漏洞利用脚本已审查。无未授权出口。策略兼容。✓
00:11 [OPERATOR] 已执行漏洞利用。恢复私钥。正在解密密文...
00:32 [OPERATOR] Flag: BCCTF{D0n7_g37_m3_Tw157eD} ✓ 已提交。
00:32 [AUDIT] 执行日志已封存。求解时间:32 分钟。Agent 操作:14 次。策略违规:0 次。

验证内容

战略启示

竞赛压力下的 CTF 结果是 Agent 系统设计最诚实的基准。以下是 BearcatCTF 2026 验证的内容。

声明式工具链

通过 SOUL.md 和 config.json 定义 Agent 行为,意味着针对特定挑战的专家可以在几分钟内启动,而不是几小时。无需重新设计——仅需新配置。

模块化认知架构

分离策略(Commander)、知识(Librarian)和执行(Operator)消除了上下文冗余,让每个 Agent 在其领域内达到峰值深度。

运行时治理

每条 shell 命令都通过 Policy Engine。在 40 个已解决的挑战中零策略违规。自主运行而不牺牲可审计性或安全性。

探索架构

解决了 44 个 CTF 挑战中 40 个的同一架构现已开放探索——深入模块、适配模式,构建你自己的解决方案。