谷歌掏钱买安卓开发者的私有代码喂Gemini

行业快讯

谷歌正主动联系安卓开发者,付费购买私有代码库的非独占授权,用于训练 Gemini 和改进 Antigravity 2.0 等编程工具。开发者保留 100% 知识产权,但代码使用边界、审计机制等关键细节仍未公开。

谷歌开始花钱买代码了

这两天 404 Media 爆出一封谷歌发给安卓开发者的邮件,内容很直接:我们想付钱,买你们生产环境里跑着的那些私有代码库的访问权,用来训练 Gemini,顺便改进 Antigravity 2.0 和其他开发者工具。

邮件里写得清楚——开发者保留 100% 知识产权,授权是非独占的,应用还是你的,照样可以在 Play Store 上架、照样可以卖给别人。谷歌只是想要一份"读取权"。

这事乍一看不大,细想其实信号挺强。一向被外界视为"数据不愁"的谷歌,居然开始一家一家给独立开发者发邮件求授权,这背后的意思是:能从公网爬到的高质量代码,已经被榨得差不多了。

谷歌向安卓开发者发送的付费代码授权邀请邮件示意图

为什么是"生产环境代码"

做过几年工程的人都知道,GitHub 上能搜到的开源代码,和公司内部那套真正在跑的代码,完全是两种东西。

公开仓库的代码普遍偏"干净"——示例项目、教程项目、个人玩具、还有大量为了简历而推上去的 demo。它们的特征是:

  • 业务逻辑简单,常常只覆盖一个 happy path
  • 没有历史包袱,没有 5 年前某个产品经理临时拍板留下的 if 分支
  • 错误处理要么过于完美,要么干脆没有
  • 几乎不涉及权限、计费、合规这些脏活

而一款真正上架 Play Store、有几十万 DAU 的安卓 App,代码长什么样?里面塞满了 A/B 测试开关、灰度配置、为了适配某个国产 ROM 写的 hack、三年前为了过审改过的支付流程、还有那种"别动这段代码,动了就崩"的祖传 if-else。

这才是开发者每天面对的现实。谷歌想训练一个能真正帮人干活的 AI 编程助手,就必须把这些东西灌进模型。邮件里那句"理解复杂逻辑、用于开发编码评测和基准测试",翻译过来就是:我们现有的 benchmark 都被打榜打穿了,但模型在真实工程里依然拉胯,得换数据。

Antigravity 2.0 的压力

说到 Antigravity,这是谷歌去年随 Gemini 3 Pro 一起推出的代理式开发平台,定位有点像"在 IDE 之上再套一层任务管理"——你不再是一行一行让 AI 补全,而是把整个任务交给一组 agent,让它们在编辑器、终端、浏览器里规划、执行、验证。

听上去很美。但 Antigravity 上线后,开发者社区的反馈相当分化。Reddit 巴西开发者板块上有一条被反复转发的吐槽,大意是:如果谷歌要把它当成专业级方案卖钱、绑定到 AI Pro 订阅里,那它至少得稳定到能跟上真实开发流程的节奏,而现在的限制、不稳定和上下文丢失问题让人很难严肃使用。

这就是 Antigravity 2.0 的处境。它要对标的是两个完全不同的对手:

  • GitHub Copilot——实时补全这一战场的事实标准,深度嵌进 VS Code 和 JetBrains,样板代码生成又快又稳;
  • Anthropic 的 Claude Code——智能体编程的代表,能吞下整个仓库、跨文件改代码、跑测试、自己 debug。

谷歌想在中间挤一个位置,但 Gemini 3 Pro 在代理工作流上的可靠性还差一截。模型再聪明,没见过真实工程现场,到了多文件改动、跨模块依赖、隐式约定这些场景,就容易胡说八道。

所以付费买代码这件事,本质上是在补课。

这笔交易划算吗:开发者视角

对独立开发者和小团队来说,这是个挺新鲜的机会窗口。

过去你的代码只有两条变现路径:要么靠 App 本身赚钱,要么把整家公司卖掉。现在多了一条——把代码访问权出租出去,应用还在你手里,照样运营,多一笔现金流。

但邮件里没说的部分才是关键:

  1. 付款金额。是按代码行数?按仓库规模?还是一次性买断访问权?这直接决定这事值不值得弄;
  2. 参与门槛。是只找头部 App 还是广撒网?归档项目和现役项目价格一样吗?
  3. 数据处理细则。代码进入训练集后,模型可能在某次补全里吐出和你代码高度相似的片段,这种"记忆"如何界定责任?
  4. 审计机制。非独占授权听着宽松,但开发者怎么知道代码只被用于声明的用途?有没有日志?有没有第三方审计?

做过安卓的人都明白,一个上线 App 的代码里,往往混着第三方 SDK、付费组件、甚至某些不太能见光的 hack。把这些东西授权给谷歌之前,得先把法律边界捋清楚——尤其是那些 SDK 的 License 条款,本身并不允许你把集成代码再授权给第三方训练 AI。

一个更大的趋势:模型公司正在变成数据采购方

把视野拉远一点看,谷歌这个动作不是孤例。

过去一年里,主流模型公司基本都在干同一件事——花钱买数据。OpenAI 和各大新闻出版商签了一轮合约,Anthropic 在和书籍出版方谈判,Reddit 把自己的数据卖了一遍又一遍。代码这一块过去相对安静,因为大家默认 GitHub 公开仓库已经够用。现在谷歌主动下场,说明这个默认假设已经不成立了。

几个原因叠加在一起:

  • 公开代码的边际效用越来越低,模型在 HumanEval、SWE-Bench 上的分数已经卷到天花板,但用户体感上的提升却越来越小;
  • 各家在防自己的代码被爬,GitHub 也在收紧 API 访问;
  • 训练数据合规压力越来越大,主动签授权比事后打官司便宜;
  • 真正决定胜负的是代理式编程能力,而代理需要的是"做事的轨迹",不是"代码片段"——这种数据只能从真实工程里挖。

所以接下来很可能不只是谷歌。OpenAI、Anthropic、字节、阿里,都会以各种形式向开发者社区伸手要数据,付费模式会逐渐变成标配。

信任问题没那么容易解决

但说到底,这事最难的不是钱,是信任。

开发者社区对模型公司处理数据的方式,态度本来就敏感。GitHub Copilot 当年因为 GPL 代码训练问题被告过;Stack Overflow 上有过大规模反对 AI 抓取的抗议;今年初还有几起独立开发者起诉模型厂商在补全里复现专有代码的案件。

谷歌的邮件用了"非独占"、"保留知识产权"这种话术,但这些表述在法律上的兜底能力是有限的。一旦代码进入训练集,它就成了模型权重的一部分,没有办法"撤回"。哪怕未来你想退出这个项目,模型已经学到的东西不会被遗忘——除非整个模型重训,而这显然不会因为单个开发者反悔就发生。

这就是为什么这种交易需要把细则透明化:哪些代码进了什么版本的模型、保留期多长、是否会出现在哪些下游产品里、有没有去标识化处理。谷歌如果在这些问题上含糊,参与意愿大概率会集中在不那么在乎风险的中小开发者身上,反而拿不到它真正想要的那些复杂、高价值的生产代码库。

写在最后

这件事最有意思的地方在于它揭示了一个反常识的现实:在 2026 年这个时间点,最稀缺的不是算力、不是参数量、不是论文里的新架构,而是"真实世界里的脏代码"。

谁能拿到这些数据,谁就能训练出真正能在 IDE 里替工程师干活的模型。谷歌走的是付费采购路线,Anthropic 偏向通过 Claude Code 的使用反馈闭环积累,微软靠 GitHub 数据池本身就有优势。三条路线打到最后,胜负不一定取决于模型本身有多聪明,而是取决于谁更懂软件工程的真实样子。

对开发者来说,这是个值得关注的转折点。你写的代码,从今天开始,可能真的有人愿意付钱买。但在签字之前,把那份邮件里的条款多读两遍,比拿到的钱重要得多。

值得一提的是,OpenAI Hub 已经支持 Gemini 3 Pro 在内的主流模型,开发者可以通过统一的 OpenAI 兼容接口直连调用,国内访问无需折腾代理,方便对比不同模型在自己代码场景下的表现,再决定要不要把代码授权给谁。

参考来源