Meta封杀Claude与Codex:怕的不是花钱,是蒸馏

Meta内部文件曝光,AI工程部门已于5月起限制工程师使用Claude Code和OpenAI Codex,原因不是成本也不是效率,而是担心竞品模型的输出污染自家训练数据,触发"模型蒸馏"红线。
Meta封杀Claude与Codex:怕的不是花钱,是蒸馏
Meta把Claude Code和Codex从自家AI工程师的工具箱里拿走了,而且理由相当反常识——既不是嫌贵,也不是嫌效果差。
据The Information本周披露的内部文件,Meta应用AI工程部门从今年5月起就开始执行一份至今仍在生效的内部规范,限制工程师在日常开发中调用Anthropic的Claude Code和OpenAI的Codex。一些团队甚至被要求暂停手上正在跑的相关任务。Meta发言人对此的官方表态是:"我们有明确政策来规范团队如何使用AI工具,确保他们能够以负责任的方式专注于高影响力工作。"
这套官方说辞翻译过来其实只有一件事:Meta怕被指控蒸馏。

这不是一道成本题,是一道法务题
大厂限制员工使用外部AI工具,过去常见的理由无外乎三种:数据泄露、API成本、生产力管控。但Meta这次的内部备忘录把话挑明了——担心的是"无意间触发蒸馏行为"。
所谓蒸馏(distillation),在大模型语境下指的是用一个能力更强的"教师模型"的输出来训练一个"学生模型",让后者以更小的体量逼近前者的表现。这本来是模型压缩领域的标准技术,但放在闭源商业模型身上,性质就变了。
Claude和Codex的用户服务协议里都有明确条款:禁止使用其输出来训练、改进、或开发任何竞争性的AI模型。Anthropic的条款写得尤其严格,OpenAI那边在DeepSeek风波之后也一直在收紧相关措辞。
问题是,工程师每天用Claude Code写代码、用Codex补全函数,这些代码片段如果被合入Meta内部代码库,再随着代码库一起进入Llama系列模型的训练语料——技术上,这条链路就构成了蒸馏。哪怕主观上没人想这么干,客观结果摆在那里。
Meta的备忘录里写得很直白:如果任由竞争对手的AI输出渗入Meta的训练数据,可能会引发"与合作企业之间的严重纠纷与事态升级"。这话里的"合作企业"措辞颇为微妙,因为Meta和Anthropic、OpenAI在模型层面是纯粹的竞争关系,所谓合作大概率指的是云服务、芯片采购这些上游环节的牵连。
DeepSeek的阴影还没散
要理解Meta为什么紧张到这个程度,得把时间线往前倒。
年初DeepSeek-R1引发的那场风波,OpenAI公开指控对方使用了ChatGPT的输出做蒸馏训练,虽然最终没有走到诉讼,但整个行业的紧张神经被绷起来了。各家闭源模型厂商在那之后都开始加强对输出使用的监控和合规审计,调用日志、prompt模式、输出特征——能查的都查。
Meta的处境其实更敏感。Llama系列虽然开源,但训练数据和合成数据的来源一直是外界关心的重点。一旦哪天Llama的某个新版本被技术分析发现输出风格、错误模式和Claude或GPT存在统计相关性,Meta需要拿出来自证清白的就不只是一份内部声明,而是完整的数据溯源链。
从这个角度看,5月这份内部规范更像是一次合规前置——与其等出事了再解释,不如从工程师的键盘上就把这条路堵死。
据多个信息源补充,Meta目前的限制并非一刀切。在搭建测试环境、做评测对比等明显合规的场景里,团队仍然可以使用第三方AI工具,但有两条硬性要求:
- 所有AI生成内容在投入使用前必须经过人工严格审核
- 禁止利用第三方模型的输出来设计或评测自研模型的编程能力
第二条尤其关键。它直接切断了用Claude或Codex的输出作为"参考答案"来调教Llama代码能力的可能性——而这恰恰是业内一种心照不宣的常见做法。
工程师视角:日常工作要怎么继续
对Meta内部的AI工程师来说,这件事的实际影响有多大?
首先是编码体验的回退。Claude Code和Codex在代码补全、debug、重构上的综合表现,目前仍然是行业第一梯队。强行切换到Meta自家的Code Llama或内部工具,体感差距是真实存在的,尤其在处理复杂上下文和大型代码库时。
其次是评测环节的复杂化。过去工程师可能直接把同一段需求丢给Claude和Llama,对比输出质量,快速定位差距。现在这条捷径被明令禁止,内部评测必须依赖人工标注的基准集或者非生成式的自动评测方案,迭代速度会慢下来。
好消息是,Meta并没有禁止所有外部AI工具——开源模型的使用并不受限。工程师仍然可以用Qwen、DeepSeek、GLM这些开源模型做日常辅助,因为开源模型的协议条款对蒸馏的限制要宽松得多,部分甚至明确允许。
对行业意味着什么
Meta这次的动作,放在更大的图景里看,至少透露三个信号。
第一,闭源模型厂商的"输出主权"正在被严肃对待。 过去大家觉得反正模型输出就是文本,用就用了,现在头部厂商已经在内部建立明确的隔离机制。这是对Anthropic、OpenAI这套协议条款的实质性认可,也意味着未来如果真的发生蒸馏争议,被告方的辩护难度会大大增加。
第二,工程师工具链的选择正在政治化。 一个工程师选什么AI助手,过去是个人偏好问题,现在在大厂内部已经变成合规问题。这种趋势如果蔓延,意味着模型厂商之间的市场竞争会从产品力延伸到法务体系——你的协议条款够不够硬、监控手段够不够细,会直接影响竞争对手敢不敢用你的产品。
第三,开源模型的隐性价值在被放大。 当闭源模型在大厂内部变成"碰不得"的资产,开源模型自然就成了默认选项。这对DeepSeek、Qwen、GLM这些开源阵营来说是利好——不是因为它们能力突然变强了,而是因为竞争对手主动把自己捆住了手。
一个略显尴尬的处境
值得一提的是,Meta自己就是开源模型的最大旗手之一。Llama系列长期是开源世界的标杆,扎克伯格本人也多次公开抨击闭源模型的封闭性。
但在内部管理上,Meta却不得不严格遵守竞争对手设下的闭源规则——不能用Claude,不能用Codex。这种割裂感本身就是当下大模型行业的真实写照:在公开场合谈开放、谈共享,回到办公室关上门,每个人都在小心翼翼地守着自己那条数据红线。
对于关注模型API调用的开发者来说,这件事还有一个侧面观察:在一个Key能同时调通GPT、Claude、Gemini、DeepSeek等主流模型的聚合平台(比如OpenAI Hub),日常切换不同模型做对比测试本来是再普通不过的工作流。但如果你的产品代码也用来训练自家模型,那么这些输出从哪里来、用在哪里,就值得在合规层面好好梳理一遍了。Meta这份5月备忘录,某种意义上给所有正在做模型训练的团队提了个醒。
写在最后
Meta这次的限制不会持续太久——至少不会以现在这个形式持续。要么Meta和Anthropic、OpenAI谈出一套明确的企业级使用许可,把蒸馏边界用合同语言固定下来;要么Meta内部的自研工具链快速补位,让工程师不再有动力去碰外部模型。
但这件事本身的标志意义不会消失。当大厂开始用法务的逻辑而不是技术的逻辑来管理AI工具使用,整个行业就已经进入了一个新的阶段:模型能力的竞争之外,规则的竞争才刚刚开始。
参考来源
- 防止蒸馏第三方模型,Meta 限制 AI 工程师使用 Claude 与 Codex - IT之家 — IT之家对The Information报道的中文整理,包含Meta内部规范的关键细节



