智源研究院联合北大、北航、上交等机构推出 FlagSafe 大模型安全平台，覆盖红队演练、蓝队防御与白盒机理透视三个方向，试图把当下分散的大模型安全研究拧成一股绳。

智源联手六大高校发布 FlagSafe：把红队、蓝队、白盒透视塞进同一个平台

大模型安全这件事，过去两年一直是一锅各炒各的菜。学术圈刷越狱攻击 benchmark，厂商做内容过滤网关，安服公司卖红队服务，互相之间数据不通、方法不统一。智源这次想干的事，是把这盘散沙拢一拢。

近日，北京智源人工智能研究院联合北京大学、北京邮电大学、北京航空航天大学、上海交通大学、中科院信工所、中科院计算所，正式发布 FlagSafe 大模型安全平台。首批汇聚多个前沿大模型安全研究项目，围绕红队演练、蓝队防御、白盒透视三个方向展开，目标是覆盖"风险发现—防御治理—机理解释"的全链路。

这是国内为数不多把"机理解释"也纳入安全平台核心方向的尝试，也是 FlagSafe 跟 360《大模型安全白皮书》那种"外挂式+原生"工程化思路最大的差异点——它更偏研究侧，更想把"为什么模型会被攻破"这件事讲清楚。

FlagSafe 平台三大方向架构示意图

不只是又一个红队工具

讲清楚 FlagSafe 之前，得先说一下当前大模型安全工具的分层。

业内大致有三类做法：

黑盒红队：典型代表是各种 jailbreak prompt 集合、自动化攻击框架（PAIR、GCG、AutoDAN 之类）。优点是对任何模型都能打，缺点是知其然不知其所以然，攻击成功了不知道为什么成功。
蓝队防御：输入输出过滤、意图分类、安全对齐微调。工程上成熟，但本质是"补丁式"的，攻击者换个变体就可能绕过去。
白盒可解释性：从激活值、注意力、特征可视化的角度看模型内部，学术界这几年很火（Anthropic 的 circuit tracing、稀疏自编码器都属于这条线）。问题是离工程落地远，门槛高。

FlagSafe 把这三件事放在同一个平台上，意味着研究者可以用一套基础设施，同时跑攻击、测防御、再回到模型内部找解释。这种"打通"在业内并不常见——以往要么是攻击库（如 HarmBench、JailbreakBench），要么是评测榜单，单一维度的居多。

三个方向各自要解决什么

红队演练：自动化是关键词

红队这块，传统人工红队早就跟不上了。一个前沿模型几千亿参数、上万种交互模式，靠人写 prompt 找漏洞，效率太低。FlagSafe 这次接入的研究项目，重点应该在自动化攻击生成和多模态攻击上——前者解决覆盖率问题，后者应对图文、语音输入带来的新攻击面。

值得关注的是，攻击范式正在从"骗模型说脏话"演化到更隐蔽的层次：

间接提示注入（indirect prompt injection），针对 Agent 场景下读取外部文档/网页时的污染
工具调用劫持，针对带有 function call、MCP 的智能体
长上下文中的隐藏指令，利用百万 token 上下文窗口的注意力稀释

这些都不是传统 NLP 安全测试能覆盖的，需要新的演练框架。

蓝队防御：从堵漏到治理

蓝队部分的关键词是"治理"，不只是过滤。过滤是被动的，治理意味着要有策略、有审计、有度量。

一个能跑起来的防御平台至少要回答几个问题：

攻击成功率（ASR）这个指标怎么算才公平？不同 prompt 模板、不同温度参数下结果差异巨大
安全和有用性的 trade-off 怎么量化？过度防御导致模型啥都不敢答，业务方不会买账
防御策略本身能不能被对抗？比如越狱者专门针对你的过滤器训练绕过模型

FlagSafe 联合了多家高校实验室，理论上能在评测方法学层面给出更扎实的答案，而不是各家自说自话。

白盒透视：这才是真亮点

白盒方向是 FlagSafe 跟其他安全平台拉开差距的地方。所谓白盒透视，是直接看模型内部参数、激活、电路（circuit），找出"安全行为"或"有害行为"对应的内部机制。

这条路走通了，意味着：

防御不再依赖外挂分类器，而是可以从模型内部"切除"有害能力（unlearning）
对齐效果可以被验证，不只是看 benchmark 分数
监管层面，模型能力评估终于有可能从黑盒测试走向白盒审计

这块技术门槛极高，需要模型权重、训练数据、推理基础设施三者都拿得到。智源以非营利研究机构的身份，加上一批国家队高校，在这件事上比商业公司更有可能推动起来。

为什么是现在

FlagSafe 在 2026 年 5 月这个时间点发布，背景不难理解。

一边是模型能力指数级抬升，GPT-5.5、Claude 4 系列、国内 DeepSeek、Qwen、智谱新一代都在卷智能体能力，攻击面随之爆炸。OpenAI 前不久还专门为 GPT-5.5 的生物安全漏洞挂出重金赏金，说明顶级实验室自己都心里没底。

另一边是合规压力。2026 年初发布的《国际 AI 安全报告》明确提出风险识别—评估—缓解—治理的四段框架，国内对生成式 AI 的备案、安全评估要求也在持续加码。企业想用大模型做严肃业务，没有一套可信的安全评估体系是过不了关的。

第三层是产学研的结构性问题。国内大模型安全研究分散在各高校实验室，论文发了不少，但工程化、平台化的输出很少。FlagSafe 的角色更像是一个"中台"，把分散的成果对齐到统一接口、统一评测集上。

给开发者的实际意义

对一线开发者，FlagSafe 短期内不会替代你现有的安全方案，但有几件事值得关注：

开源评测集：如果 FlagSafe 后续开放红队 prompt 集合和评测脚本，可以直接接入 CI 流程，给自家微调模型做安全回归测试
白盒方法的工具化：稀疏自编码器、激活引导这类技术如果有现成实现，对做 RAG、Agent 的团队排查"为什么模型这次会出错"会很有用
统一指标：以后跟甲方解释"我们的模型安全性如何"，可以引用一个被认可的第三方平台分数，而不是自己编

典型用法预期（基于已披露方向推测）：
  红队侧：调用攻击生成 API → 批量测目标模型 → 输出 ASR 报告
  蓝队侧：接入防御中间件 → 拦截统计 → 误杀率分析  
  白盒侧：上传模型权重 → 特征抽取 → 有害行为电路定位

还有几个待观察的点

讲优点也要讲悬念。FlagSafe 现在公布的信息还比较克制，几个关键问题留给后续：

闭源模型怎么参与白盒透视？商业模型不可能交出权重，平台是只服务开源模型，还是有联邦式方案？
评测集污染问题：一旦评测集开放，下一代模型训练数据里大概率就有这些 prompt，分数还能不能反映真实安全性？
生态协作：六家发起机构都是研究侧，但真正的安全攻防经验在阿里安全、腾讯朱雀、360 这些厂商手上，FlagSafe 能不能把工业界拉进来很关键。

大模型安全这件事，过去两年讨论得多、做得少，做得多的又各自为战。FlagSafe 不一定能一举解决所有问题，但至少把"研究、工程、评测"三件事放在了同一张桌子上谈。这本身就是国内 AI 安全生态的一次必要整合。

至于平台后续会不会开源代码、开放 API、对接哪些主流模型，等接下来几个月看动作。值得持续盯着。

参考来源

Hugging Face — 大模型安全评测集与开源模型权重的主要分发平台，FlagSafe 后续相关产出预计也会在此发布