实战案例 · BearcatCTF 2026

全球前 6%。
44 道中解出 40 道挑战题目。

Orange 队在 BearcatCTF 2026 中部署了 Claw-Stack Trinity。基于团队在密码学、取证和二进制漏洞利用方面的深厚专业积累，Trinity 加速了自主求解速率 —— 最终排名 #20 of 362 在线赛区。

#20

排名

（共 362 支队伍）

3084

得分

在线赛区

40/44

解出

道题目

Top 6%

百分位

全场前 5.52%

证据

最终排行榜

Orange 队，排名 #20（共 362 支队伍），在线赛区。

bearcatctf.com/scoreboard

BearcatCTF 2026 Scoreboard — Team Orange rank #20

进度演进

随时间推移的得分

在整个比赛窗口期间保持持续的得分速度 —— 无平台期。Trinity 在挑战难度上升时保持了势头。

score_over_time.png

BearcatCTF 2026 Score Over Time — Team Orange

架构演进

为什么是 Trinity？

架构设计源于一次深刻的教训。

单 Agent

一个 Agent 负责侦察、求解和日志记录。在复杂题目上，上下文窗口快速溢出。比赛中期难以快速调整策略。

结果：难题上发生上下文溢出

v2 ✅ Trinity

Commander · Librarian · Operator

完全解耦。每个 Agent 独立负责一项认知职责。上下文保持精简。策略可在秒级速度内调整。

结果：全球前 6%，40/44 题解出

框架介绍

Trinity 架构

三个专业化 Agent 作为认知单元协同运作。每个 Agent 拥有独特职能 —— 共同实现从问题识别到漏洞验证的完整闭环。

策略层

⚔️ Commander

无直接工具访问权限

分派任务至

知识层

📚 Librarian

仅返回前 3 结果

CTF 知识库 · 网页搜索

执行层

⚙️ Operator

沙箱隔离作用域

Docker · Scripts · Blackboard

返回结果至

Commander 综合结果 → 更新求解方案

Commander

策略

解读题目描述，识别攻击面，选择工具和方案。监控进展，遇阻时调整策略。唯一拥有求解方案写入权限的 Agent。

→ 分解多步骤挑战

→ 假设生成与分类

→ 跨挑战模式识别

Librarian

知识库

实时检索和综合相关密码学论文、CVE、writeup 和工具文档。将结构化知识直接反馈到 Commander 的推理上下文中。

→ 热带半环与格论参考资料

→ CVE 与漏洞数据库查询

→ CTF writeup 语料库综合

Operator

执行层

实现漏洞利用、运行工具、解析输出并提交 flag。在沙箱环境中操作，具有策略管制的工具访问权限。每条 shell 命令在执行前都经过审计。

→ Python/pwntools 漏洞利用脚本编写

→ 二进制与密码工具执行

→ 沙箱隔离、审计、策略管制

实时执行日志

TwistedPair — 密码挑战

通过热带半环残差化进行 RSA 私钥指数恢复。32 分钟内解决，端到端自主完成。

trinity — TwistedPair

00:00 已收到挑战。类别：密码学。文件：twisted_pair.py、output.txt

00:02 [COMMANDER] 分析密码结构——检测到非标准 RSA 与热带半环操作。

00:05 [LIBRARIAN] 已检索：热带半环残差化理论、基于格的密码分析论文、RSA 指数泄露方法。

00:08 [COMMANDER] 识别出通过热带半环残差化的 RSA 私钥指数泄露。利用路径已确认。

00:09 [RUNTIME] 执行前审计：漏洞利用脚本已审查。无未授权出口。策略兼容。✓

00:11 [OPERATOR] 已执行漏洞利用。恢复私钥。正在解密密文...

00:32 [OPERATOR] Flag： BCCTF{D0n7_g37_m3_Tw157eD} ✓ 已提交。

00:32 [AUDIT] 执行日志已封存。求解时间：32 分钟。Agent 操作：14 次。策略违规：0 次。

验证内容

战略启示

竞赛压力下的 CTF 结果是 Agent 系统设计最诚实的基准。以下是 BearcatCTF 2026 验证的内容。

声明式工具链

通过 SOUL.md 和 config.json 定义 Agent 行为，意味着针对特定挑战的专家可以在几分钟内启动，而不是几小时。无需重新设计——仅需新配置。

模块化认知架构

分离策略（Commander）、知识（Librarian）和执行（Operator）消除了上下文冗余，让每个 Agent 在其领域内达到峰值深度。

运行时治理

每条 shell 命令都通过 Policy Engine。在 40 个已解决的挑战中零策略违规。自主运行而不牺牲可审计性或安全性。

探索架构

解决了 44 个 CTF 挑战中 40 个的同一架构现已开放探索——深入模块、适配模式，构建你自己的解决方案。

查看架构 → 探索模块

全球前 6%。 44 道中解出 40 道 挑战题目。