全球前 6%。
44 道中解出 40 道 挑战题目。
Orange 队在 BearcatCTF 2026 中部署了 Claw-Stack Trinity。基于团队在密码学、取证和二进制漏洞利用方面的深厚专业积累,Trinity 加速了自主求解速率 —— 最终排名 #20 of 362 在线赛区。
#20
排名
(共 362 支队伍)
3084
得分
在线赛区
40/44
解出
道题目
Top 6%
百分位
全场前 5.52%
证据
最终排行榜
Orange 队,排名 #20(共 362 支队伍),在线赛区。
进度演进
随时间推移的得分
在整个比赛窗口期间保持持续的得分速度 —— 无平台期。Trinity 在挑战难度上升时保持了势头。
架构演进
为什么是 Trinity?
架构设计源于一次深刻的教训。
单 Agent
一个 Agent 负责侦察、求解和日志记录。在复杂题目上,上下文窗口快速溢出。比赛中期难以快速调整策略。
Commander · Librarian · Operator
完全解耦。每个 Agent 独立负责一项认知职责。上下文保持精简。策略可在秒级速度内调整。
框架介绍
Trinity 架构
三个专业化 Agent 作为认知单元协同运作。每个 Agent 拥有独特职能 —— 共同实现从问题识别到漏洞验证的完整闭环。
Commander
策略解读题目描述,识别攻击面,选择工具和方案。监控进展,遇阻时调整策略。唯一拥有求解方案写入权限的 Agent。
Librarian
知识库实时检索和综合相关密码学论文、CVE、writeup 和工具文档。将结构化知识直接反馈到 Commander 的推理上下文中。
Operator
执行层实现漏洞利用、运行工具、解析输出并提交 flag。在沙箱环境中操作,具有策略管制的工具访问权限。每条 shell 命令在执行前都经过审计。
实时执行日志
TwistedPair — 密码挑战
通过热带半环残差化进行 RSA 私钥指数恢复。32 分钟内解决,端到端自主完成。
验证内容
战略启示
竞赛压力下的 CTF 结果是 Agent 系统设计最诚实的基准。以下是 BearcatCTF 2026 验证的内容。
声明式工具链
通过 SOUL.md 和 config.json 定义 Agent 行为,意味着针对特定挑战的专家可以在几分钟内启动,而不是几小时。无需重新设计——仅需新配置。
模块化认知架构
分离策略(Commander)、知识(Librarian)和执行(Operator)消除了上下文冗余,让每个 Agent 在其领域内达到峰值深度。
运行时治理
每条 shell 命令都通过 Policy Engine。在 40 个已解决的挑战中零策略违规。自主运行而不牺牲可审计性或安全性。