智源联手六大高校发布 FlagSafe:把红队、蓝队、白盒透视塞进同一个平台
大模型安全这件事,过去两年一直是一锅各炒各的菜。学术圈刷越狱攻击 benchmark,厂商做内容过滤网关,安服公司卖红队服务,互相之间数据不通、方法不统一。智源这次想干的事,是把这盘散沙拢一拢。
近日,北京智源人工智能研究院联合北京大学、北京邮电大学、北京航空航天大学、上海交通大学、中科院信工所、中科院计算所,正式发布 FlagSafe 大模型安全平台。首批汇聚多个前沿大模型安全研究项目,围绕红队演练、蓝队防御、白盒透视三个方向展开,目标是覆盖"风险发现—防御治理—机理解释"的全链路。
这是国内为数不多把"机理解释"也纳入安全平台核心方向的尝试,也是 FlagSafe 跟 360《大模型安全白皮书》那种"外挂式+原生"工程化思路最大的差异点——它更偏研究侧,更想把"为什么模型会被攻破"这件事讲清楚。

不只是又一个红队工具
讲清楚 FlagSafe 之前,得先说一下当前大模型安全工具的分层。
业内大致有三类做法:
- 黑盒红队:典型代表是各种 jailbreak prompt 集合、自动化攻击框架(PAIR、GCG、AutoDAN 之类)。优点是对任何模型都能打,缺点是知其然不知其所以然,攻击成功了不知道为什么成功。
- 蓝队防御:输入输出过滤、意图分类、安全对齐微调。工程上成熟,但本质是"补丁式"的,攻击者换个变体就可能绕过去。
- 白盒可解释性:从激活值、注意力、特征可视化的角度看模型内部,学术界这几年很火(Anthropic 的 circuit tracing、稀疏自编码器都属于这条线)。问题是离工程落地远,门槛高。
FlagSafe 把这三件事放在同一个平台上,意味着研究者可以用一套基础设施,同时跑攻击、测防御、再回到模型内部找解释。这种"打通"在业内并不常见——以往要么是攻击库(如 HarmBench、JailbreakBench),要么是评测榜单,单一维度的居多。
三个方向各自要解决什么
红队演练:自动化是关键词
红队这块,传统人工红队早就跟不上了。一个前沿模型几千亿参数、上万种交互模式,靠人写 prompt 找漏洞,效率太低。FlagSafe 这次接入的研究项目,重点应该在自动化攻击生成和多模态攻击上——前者解决覆盖率问题,后者应对图文、语音输入带来的新攻击面。
值得关注的是,攻击范式正在从"骗模型说脏话"演化到更隐蔽的层次:
- 间接提示注入(indirect prompt injection),针对 Agent 场景下读取外部文档/网页时的污染
- 工具调用劫持,针对带有 function call、MCP 的智能体
- 长上下文中的隐藏指令,利用百万 token 上下文窗口的注意力稀释
这些都不是传统 NLP 安全测试能覆盖的,需要新的演练框架。
蓝队防御:从堵漏到治理
蓝队部分的关键词是"治理",不只是过滤。过滤是被动的,治理意味着要有策略、有审计、有度量。
一个能跑起来的防御平台至少要回答几个问题:
- 攻击成功率(ASR)这个指标怎么算才公平?不同 prompt 模板、不同温度参数下结果差异巨大
- 安全和有用性的 trade-off 怎么量化?过度防御导致模型啥都不敢答,业务方不会买账
- 防御策略本身能不能被对抗?比如越狱者专门针对你的过滤器训练绕过模型
FlagSafe 联合了多家高校实验室,理论上能在评测方法学层面给出更扎实的答案,而不是各家自说自话。
白盒透视:这才是真亮点
白盒方向是 FlagSafe 跟其他安全平台拉开差距的地方。所谓白盒透视,是直接看模型内部参数、激活、电路(circuit),找出"安全行为"或"有害行为"对应的内部机制。
这条路走通了,意味着:
- 防御不再依赖外挂分类器,而是可以从模型内部"切除"有害能力(unlearning)
- 对齐效果可以被验证,不只是看 benchmark 分数
- 监管层面,模型能力评估终于有可能从黑盒测试走向白盒审计
这块技术门槛极高,需要模型权重、训练数据、推理基础设施三者都拿得到。智源以非营利研究机构的身份,加上一批国家队高校,在这件事上比商业公司更有可能推动起来。
为什么是现在
FlagSafe 在 2026 年 5 月这个时间点发布,背景不难理解。
一边是模型能力指数级抬升,GPT-5.5、Claude 4 系列、国内 DeepSeek、Qwen、智谱新一代都在卷智能体能力,攻击面随之爆炸。OpenAI 前不久还专门为 GPT-5.5 的生物安全漏洞挂出重金赏金,说明顶级实验室自己都心里没底。
另一边是合规压力。2026 年初发布的《国际 AI 安全报告》明确提出风险识别—评估—缓解—治理的四段框架,国内对生成式 AI 的备案、安全评估要求也在持续加码。企业想用大模型做严肃业务,没有一套可信的安全评估体系是过不了关的。
第三层是产学研的结构性问题。国内大模型安全研究分散在各高校实验室,论文发了不少,但工程化、平台化的输出很少。FlagSafe 的角色更像是一个"中台",把分散的成果对齐到统一接口、统一评测集上。
给开发者的实际意义
对一线开发者,FlagSafe 短期内不会替代你现有的安全方案,但有几件事值得关注:
- 开源评测集:如果 FlagSafe 后续开放红队 prompt 集合和评测脚本,可以直接接入 CI 流程,给自家微调模型做安全回归测试
- 白盒方法的工具化:稀疏自编码器、激活引导这类技术如果有现成实现,对做 RAG、Agent 的团队排查"为什么模型这次会出错"会很有用
- 统一指标:以后跟甲方解释"我们的模型安全性如何",可以引用一个被认可的第三方平台分数,而不是自己编
典型用法预期(基于已披露方向推测):
红队侧:调用攻击生成 API → 批量测目标模型 → 输出 ASR 报告
蓝队侧:接入防御中间件 → 拦截统计 → 误杀率分析
白盒侧:上传模型权重 → 特征抽取 → 有害行为电路定位
还有几个待观察的点
讲优点也要讲悬念。FlagSafe 现在公布的信息还比较克制,几个关键问题留给后续:
- 闭源模型怎么参与白盒透视?商业模型不可能交出权重,平台是只服务开源模型,还是有联邦式方案?
- 评测集污染问题:一旦评测集开放,下一代模型训练数据里大概率就有这些 prompt,分数还能不能反映真实安全性?
- 生态协作:六家发起机构都是研究侧,但真正的安全攻防经验在阿里安全、腾讯朱雀、360 这些厂商手上,FlagSafe 能不能把工业界拉进来很关键。
大模型安全这件事,过去两年讨论得多、做得少,做得多的又各自为战。FlagSafe 不一定能一举解决所有问题,但至少把"研究、工程、评测"三件事放在了同一张桌子上谈。这本身就是国内 AI 安全生态的一次必要整合。
至于平台后续会不会开源代码、开放 API、对接哪些主流模型,等接下来几个月看动作。值得持续盯着。
参考来源
- Hugging Face — 大模型安全评测集与开源模型权重的主要分发平台,FlagSafe 后续相关产出预计也会在此发布