英伟达深夜放出新一代开源文生图模型Cosmos3-Super-Text2Image，技术评测全面超越大香蕉Pro，但128G+显存的门槛让本地部署彻底成为奢望。

英伟达Cosmos3-Super-Text2Image开源：生图新王登场，但128G显存把本地党劝退了

刚刚，英伟达在 Hugging Face 悄悄推了一个新模型仓库：nvidia/Cosmos3-Super-Text2Image。没有发布会，没有黄仁勋的皮衣预热，连官方博客都还没更新——但海外社区已经炸了。

原因很简单：从已经流出的技术评测看，这个模型在多个生图基准上压过了一直被开源社区奉为天花板的「大香蕉 Pro」（Banana Pro）。换句话说，开源文生图的 SOTA 易主了。

Cosmos3-Super-Text2Image 在 Hugging Face 模型仓库页面截图

一句话总结：开源王座换人，但代价是普通人摸不到

先把结论摆出来，方便你判断要不要继续读：

它是谁：英伟达 Cosmos 系列下的文生图分支，Cosmos3 这一代的旗舰 Super 版本。
强不强：技术评测上已经超过大香蕉 Pro。注意是 Pro，不是大香蕉的基础版本。
能不能跑：HF 上权重体积巨大，推理需要 128GB 以上显存，单卡 H100 80G 都不够，本地部署基本可以放弃。
API 啥时候出：英伟达官方 API 还在路上，第三方聚合平台预计很快跟进。
能不能打 GPT-image-2：英伟达技术报告里只字未提 GPT-image-2 的对比——懂的都懂，闭源 SOTA 这把还是没追上。

这是一次典型的「英伟达式开源」：把权重、训练配方、数据集都摊在桌子上让你看，但跑起来的门槛恰好卡在你需要买它家卡的位置。

从 Cosmos 到 Cosmos3：英伟达的生图野心其实憋了很久

聊新模型之前得先理一下脉络。英伟达的 Cosmos 系列最早是作为「世界模型」立项的，主打物理 AI 和具身智能的视觉生成——给机器人和自动驾驶造仿真数据用。这条线最早走的是视频生成和 3D 一致性，文生图反而是后来从里面拆出来的副线。

但今年以来风向变了。三月份英伟达发了 Nemotron 3 Super，120B 参数、Mamba-MoE 混合架构，把开源 LLM 的开放度直接拉到 DeepSeek 之上——权重、数据集、训练方案全开。CEO 黄仁勋当时说了一句话：

「开放创新是 AI 进步的基础。」

配合上个月宣布的 五年 260 亿美元投入开源大模型 的计划，英伟达正在干一件事：用开源做底，把开发者生态绑死在自家硬件上。Nemotron 是 LLM 的子弹，Cosmos3 这次就是把同一套打法复制到了视觉生成上。

所以 Cosmos3-Super-Text2Image 不是孤立的一次发版，它是英伟达「全栈开源化」战略的下一颗棋子。

技术评测：哪里赢了大香蕉 Pro？

社区目前流出的 benchmark 主要集中在几个维度：

1. 长 prompt 跟随能力

大香蕉系列一直被诟病的一点是「prompt 一长就开始幻觉」——你写了五个物体三种风格两种光照，它能给你随机丢掉一半。Cosmos3-Super 在这块明显是下了功夫的，从社区放出的对比图看，20-30 个语义元素的长 prompt 下，元素完整率和大香蕉 Pro 拉开了肉眼可见的差距。

这背后大概率是英伟达在文本编码器上动了刀，用了比 T5-XXL 更大规模的语言模型作为条件输入。这也部分解释了为什么显存需求这么夸张——文本塔本身就吃掉了一大块。

2. 物理一致性

Cosmos 系列的老本行就是物理合理性。Cosmos3-Super-Text2Image 把这部分能力继承了下来：玻璃的折射、液体的表面张力、阴影的方向一致性，这些细节明显比通用模型扎实。生成「一杯水放在倾斜桌面上」这种场景，大香蕉 Pro 会画出水平的水面（违反物理），Cosmos3 会正确处理。

3. 文字渲染

中英文混排、复杂排版下的文字清晰度，是过去半年所有生图模型卷的重点。Cosmos3-Super 这块表现不错，但相比闭源的 GPT-image-2 还有差距——尤其是中文长文本和手写体，依然会出现笔画错误。

4. 没有提到的对比

注意一个细节：英伟达的技术资料里完全没有和 GPT-image-2 的对比。GPT-image-2 是 OpenAI 三月份更新的图像生成模型，目前在闭源生图领域基本是断层第一。英伟达跳过这个对比，意思已经很明白了——这一档暂时还打不过，但开源里我是最强。

这其实是个挺聪明的定位。和闭源 SOTA 死磕没意义，把「最强开源」这个标签拿稳，对生态绑定的价值反而更大。

128GB 显存：这是给谁用的？

看到模型大小的时候我第一反应是去翻了一下 HF 的文件清单。权重文件加起来体积非常夸张，按 FP16 推理保守估算，显存需求在 128GB 以上。

这是什么概念：

单张 H100 80GB：跑不动
单张 H200 141GB：勉强可以，但留给 KV cache 和中间激活的空间很紧张
双卡 H100 NVLink：这才是英伟达想让你买的配置
消费级显卡（4090/5090）：做梦

你看出来了吗？这个显存门槛不是技术限制，是产品设计。英伟达完全可以做一个量化版本或者蒸馏版本，但它没有。或者说，它会做，但不会一上来就做——先让你看到「这个开源模型有多强」，再告诉你「想跑就买 DGX」。

这套路和 Nemotron 3 Super 一模一样：120B 总参数虽然只激活 12B，但完整加载依然吃显存。开源是真的开源，门槛也是真的高。

对开发者意味着什么？

讲点实际的。如果你是做生图应用的开发者，这次发版你需要关注的几件事：

短期（一两周内）

本地部署别想了。除非你有 DGX 或者租得起 H200 集群，否则等 API。
社区量化版本会很快出现。参考 Flux、SD3 的历史，AWQ/GGUF 量化大概率会在两周内出现，但生图模型量化掉点比 LLM 严重得多，质量会有可见下降。
LoRA 训练门槛极高。微调一个 LoRA 也要 80GB+ 显存起步，个人开发者基本没戏，得等社区训好的 LoRA 流通。

中期（一两个月内）

API 服务会陆续上线。英伟达官方的 NIM、各大聚合平台（包括 OpenAI Hub 这类一个 Key 打通主流模型的服务）大概率会跟进，国内开发者直接调 API 是最现实的路径。
价格战可能会打起来。Cosmos3-Super 是开源权重，谁都可以部署对外提供服务，定价主动权不在英伟达手里——这反而对开发者是好事。
专用蒸馏版本可能出现。英伟达自己或者社区会推出 Cosmos3-Mini/Nano，把显存需求压到 24GB 甚至更低，那时候才是真正的「普及」。

长期

这次发布最值得关注的不是模型本身，而是它释放的信号：英伟达要把开源生图生态也吃下来。过去这块是 Stability AI、Black Forest Labs（Flux）和大香蕉团队的地盘，现在英伟达带着无限弹药下场了。

开源社区会更繁荣，但话语权会进一步集中到硬件厂商手里。这是好事还是坏事，看你站在哪一边。

一些值得吐槽的点

客观说，这次发版也不是没有问题：

没有正式的技术报告。HF 仓库目前只有 README 和权重，完整 paper 还没放出来，很多架构细节只能靠社区逆向。这和 Nemotron 3 那种「权重+数据集+训练配方」全开的姿态比，开放度其实退步了。
协议条款需要细看。英伟达开源模型一向有自己的商用条款，Cosmos 系列之前的版本对商用是有限制的，这次新版需要仔细确认。
多语言能力存疑。从社区流出的样例看，英文 prompt 的表现明显优于中文 prompt，对中文开发者不算特别友好。

总结

一句话：开源生图王座换人了，但你大概率没机会自己跑。

Cosmos3-Super-Text2Image 把英伟达的硬件优势、数据优势和工程能力全砸进了文生图这条赛道，结果就是技术上确实压过大香蕉 Pro 一头。但 128GB 显存的门槛把绝大多数开发者挡在门外，这个模型短期内的实际使用场景会高度集中在 API 调用上。

对开发者的建议很简单：别折腾本地部署，盯着 API 上线时间。等聚合平台接入之后，用一个 Key 同时调 GPT-image-2、Cosmos3、大香蕉做对比测试，根据场景选模型才是最划算的玩法。OpenAI Hub 这类平台预计会在英伟达官方 API 开放后第一时间跟进，到时候直接换个 model 参数就能切换，省去自己维护多套接入的麻烦。

至于英伟达的野心——它已经不满足于只卖卡了。从 Nemotron 到 Cosmos3，老黄想做的是 AI 时代的 Wintel：模型是开源的，但跑起来你得用我的卡。这盘棋，刚刚下到中盘。

参考来源

NV刚刚发布最新生图开源模型,把大香蕉给灭了 - linux.do 社区对 Cosmos3-Super-Text2Image 发布的第一手讨论
nvidia/Cosmos3-Super-Text2Image at main - 模型在 Hugging Face 的官方仓库，权重和文档原始出处

英伟达Cosmos3-Super-Text2Image开源：生图新王，但128G显存劝退本地党