英伟达Cosmos3-Super-Text2Image开源:生图新王登场,但128G显存把本地党劝退了
刚刚,英伟达在 Hugging Face 悄悄推了一个新模型仓库:nvidia/Cosmos3-Super-Text2Image。没有发布会,没有黄仁勋的皮衣预热,连官方博客都还没更新——但海外社区已经炸了。
原因很简单:从已经流出的技术评测看,这个模型在多个生图基准上压过了一直被开源社区奉为天花板的「大香蕉 Pro」(Banana Pro)。换句话说,开源文生图的 SOTA 易主了。

一句话总结:开源王座换人,但代价是普通人摸不到
先把结论摆出来,方便你判断要不要继续读:
- 它是谁:英伟达 Cosmos 系列下的文生图分支,Cosmos3 这一代的旗舰 Super 版本。
- 强不强:技术评测上已经超过大香蕉 Pro。注意是 Pro,不是大香蕉的基础版本。
- 能不能跑:HF 上权重体积巨大,推理需要 128GB 以上显存,单卡 H100 80G 都不够,本地部署基本可以放弃。
- API 啥时候出:英伟达官方 API 还在路上,第三方聚合平台预计很快跟进。
- 能不能打 GPT-image-2:英伟达技术报告里只字未提 GPT-image-2 的对比——懂的都懂,闭源 SOTA 这把还是没追上。
这是一次典型的「英伟达式开源」:把权重、训练配方、数据集都摊在桌子上让你看,但跑起来的门槛恰好卡在你需要买它家卡的位置。
从 Cosmos 到 Cosmos3:英伟达的生图野心其实憋了很久
聊新模型之前得先理一下脉络。英伟达的 Cosmos 系列最早是作为「世界模型」立项的,主打物理 AI 和具身智能的视觉生成——给机器人和自动驾驶造仿真数据用。这条线最早走的是视频生成和 3D 一致性,文生图反而是后来从里面拆出来的副线。
但今年以来风向变了。三月份英伟达发了 Nemotron 3 Super,120B 参数、Mamba-MoE 混合架构,把开源 LLM 的开放度直接拉到 DeepSeek 之上——权重、数据集、训练方案全开。CEO 黄仁勋当时说了一句话:
「开放创新是 AI 进步的基础。」
配合上个月宣布的 五年 260 亿美元投入开源大模型 的计划,英伟达正在干一件事:用开源做底,把开发者生态绑死在自家硬件上。Nemotron 是 LLM 的子弹,Cosmos3 这次就是把同一套打法复制到了视觉生成上。
所以 Cosmos3-Super-Text2Image 不是孤立的一次发版,它是英伟达「全栈开源化」战略的下一颗棋子。
技术评测:哪里赢了大香蕉 Pro?
社区目前流出的 benchmark 主要集中在几个维度:
1. 长 prompt 跟随能力
大香蕉系列一直被诟病的一点是「prompt 一长就开始幻觉」——你写了五个物体三种风格两种光照,它能给你随机丢掉一半。Cosmos3-Super 在这块明显是下了功夫的,从社区放出的对比图看,20-30 个语义元素的长 prompt 下,元素完整率和大香蕉 Pro 拉开了肉眼可见的差距。
这背后大概率是英伟达在文本编码器上动了刀,用了比 T5-XXL 更大规模的语言模型作为条件输入。这也部分解释了为什么显存需求这么夸张——文本塔本身就吃掉了一大块。
2. 物理一致性
Cosmos 系列的老本行就是物理合理性。Cosmos3-Super-Text2Image 把这部分能力继承了下来:玻璃的折射、液体的表面张力、阴影的方向一致性,这些细节明显比通用模型扎实。生成「一杯水放在倾斜桌面上」这种场景,大香蕉 Pro 会画出水平的水面(违反物理),Cosmos3 会正确处理。
3. 文字渲染
中英文混排、复杂排版下的文字清晰度,是过去半年所有生图模型卷的重点。Cosmos3-Super 这块表现不错,但相比闭源的 GPT-image-2 还有差距——尤其是中文长文本和手写体,依然会出现笔画错误。
4. 没有提到的对比
注意一个细节:英伟达的技术资料里完全没有和 GPT-image-2 的对比。GPT-image-2 是 OpenAI 三月份更新的图像生成模型,目前在闭源生图领域基本是断层第一。英伟达跳过这个对比,意思已经很明白了——这一档暂时还打不过,但开源里我是最强。
这其实是个挺聪明的定位。和闭源 SOTA 死磕没意义,把「最强开源」这个标签拿稳,对生态绑定的价值反而更大。
128GB 显存:这是给谁用的?
看到模型大小的时候我第一反应是去翻了一下 HF 的文件清单。权重文件加起来体积非常夸张,按 FP16 推理保守估算,显存需求在 128GB 以上。
这是什么概念:
- 单张 H100 80GB:跑不动
- 单张 H200 141GB:勉强可以,但留给 KV cache 和中间激活的空间很紧张
- 双卡 H100 NVLink:这才是英伟达想让你买的配置
- 消费级显卡(4090/5090):做梦
你看出来了吗?这个显存门槛不是技术限制,是产品设计。英伟达完全可以做一个量化版本或者蒸馏版本,但它没有。或者说,它会做,但不会一上来就做——先让你看到「这个开源模型有多强」,再告诉你「想跑就买 DGX」。
这套路和 Nemotron 3 Super 一模一样:120B 总参数虽然只激活 12B,但完整加载依然吃显存。开源是真的开源,门槛也是真的高。
对开发者意味着什么?
讲点实际的。如果你是做生图应用的开发者,这次发版你需要关注的几件事:
短期(一两周内)
- 本地部署别想了。除非你有 DGX 或者租得起 H200 集群,否则等 API。
- 社区量化版本会很快出现。参考 Flux、SD3 的历史,AWQ/GGUF 量化大概率会在两周内出现,但生图模型量化掉点比 LLM 严重得多,质量会有可见下降。
- LoRA 训练门槛极高。微调一个 LoRA 也要 80GB+ 显存起步,个人开发者基本没戏,得等社区训好的 LoRA 流通。
中期(一两个月内)
- API 服务会陆续上线。英伟达官方的 NIM、各大聚合平台(包括 OpenAI Hub 这类一个 Key 打通主流模型的服务)大概率会跟进,国内开发者直接调 API 是最现实的路径。
- 价格战可能会打起来。Cosmos3-Super 是开源权重,谁都可以部署对外提供服务,定价主动权不在英伟达手里——这反而对开发者是好事。
- 专用蒸馏版本可能出现。英伟达自己或者社区会推出 Cosmos3-Mini/Nano,把显存需求压到 24GB 甚至更低,那时候才是真正的「普及」。
长期
这次发布最值得关注的不是模型本身,而是它释放的信号:英伟达要把开源生图生态也吃下来。过去这块是 Stability AI、Black Forest Labs(Flux)和大香蕉团队的地盘,现在英伟达带着无限弹药下场了。
开源社区会更繁荣,但话语权会进一步集中到硬件厂商手里。这是好事还是坏事,看你站在哪一边。
一些值得吐槽的点
客观说,这次发版也不是没有问题:
- 没有正式的技术报告。HF 仓库目前只有 README 和权重,完整 paper 还没放出来,很多架构细节只能靠社区逆向。这和 Nemotron 3 那种「权重+数据集+训练配方」全开的姿态比,开放度其实退步了。
- 协议条款需要细看。英伟达开源模型一向有自己的商用条款,Cosmos 系列之前的版本对商用是有限制的,这次新版需要仔细确认。
- 多语言能力存疑。从社区流出的样例看,英文 prompt 的表现明显优于中文 prompt,对中文开发者不算特别友好。
总结
一句话:开源生图王座换人了,但你大概率没机会自己跑。
Cosmos3-Super-Text2Image 把英伟达的硬件优势、数据优势和工程能力全砸进了文生图这条赛道,结果就是技术上确实压过大香蕉 Pro 一头。但 128GB 显存的门槛把绝大多数开发者挡在门外,这个模型短期内的实际使用场景会高度集中在 API 调用上。
对开发者的建议很简单:别折腾本地部署,盯着 API 上线时间。等聚合平台接入之后,用一个 Key 同时调 GPT-image-2、Cosmos3、大香蕉做对比测试,根据场景选模型才是最划算的玩法。OpenAI Hub 这类平台预计会在英伟达官方 API 开放后第一时间跟进,到时候直接换个 model 参数就能切换,省去自己维护多套接入的麻烦。
至于英伟达的野心——它已经不满足于只卖卡了。从 Nemotron 到 Cosmos3,老黄想做的是 AI 时代的 Wintel:模型是开源的,但跑起来你得用我的卡。这盘棋,刚刚下到中盘。
参考来源
- NV刚刚发布最新生图开源模型,把大香蕉给灭了 - linux.do 社区对 Cosmos3-Super-Text2Image 发布的第一手讨论
- nvidia/Cosmos3-Super-Text2Image at main - 模型在 Hugging Face 的官方仓库,权重和文档原始出处