字节跳动发布 Seed3D 2.0：3D 生成大模型几何与材质双 SOTA，API 上线火山引擎

字节跳动今日发布 3D 生成大模型 Seed3D 2.0，采用 Coarse-to-Fine 两阶段策略和 MoE 架构，在几何与 PBR 纹理生成上均达到 SOTA，API 已上线火山引擎。

字节 Seed3D 2.0：3D 生成卷到工业级

字节跳动今天发布了 Seed3D 2.0，一个面向工业级应用的 3D 生成大模型。API 同步上线火山引擎，技术报告公开。

直接说结论：这可能是目前公开可用的 3D 生成模型里，几何精度和材质真实感做得最好的一个。

为什么值得关注

3D 生成这条赛道过去两年热度不低，但说实话，大部分模型生成的东西离「能用」还有距离。游戏、影视、电商场景对 3D 资产的要求不是「看着像那么回事」，而是几何结构要干净、拓扑要合理、材质要能在不同光照下正确响应。这些恰恰是之前的 3D 生成模型最薄弱的地方——生成一个杯子的大致形状没问题，但杯沿的锐利边缘糊成一团、薄壁结构直接塌陷、金属和粗糙度的边界混在一起，拿到下游渲染引擎里根本没法用。

Seed3D 2.0 瞄准的就是这些痛点。

核心技术拆解

几何生成：Coarse-to-Fine 两阶段策略

Seed3D 2.0 最关键的架构创新是把几何生成拆成了两步：先生成粗粒度的整体结构，再精修细节。

这个思路本身不新鲜——图像超分辨率领域早就在用类似的策略。但在 3D 生成里，难点在于「粗」和「细」的解耦并不像二维图像那么直观。一个机械零件的整体轮廓和它表面的倒角、螺纹、卡扣结构，在三维空间里是高度耦合的。Seed3D 2.0 的做法是把「整体结构」和「几何细节」显式解耦，分阶段优化，让模型在第一阶段专注于拓扑正确性，第二阶段专注于表面细节的锐利度和精度。

效果上，这带来了三个明显改善：

锐利边缘不再糊掉（比如刀刃、建筑棱角）
薄壁结构能保持完整（比如眼镜腿、树叶）
复杂拓扑不再出现自交或破面（比如链条、编织结构）

这三个问题恰好是之前 3D 生成模型被吐槽最多的地方。做过 3D 打印或者游戏建模的开发者应该深有体会——一个几何上不干净的 mesh，后续的 UV 展开、骨骼绑定、物理模拟全都会出问题。

Seed3D 2.0 几何生成流程示意图，展示 Coarse-to-Fine 两阶段从粗粒度结构到精细几何细节的生成过程

纹理材质：MoE 架构 + VLM 先验

材质生成是 Seed3D 2.0 的另一个重头戏。

先解释一下背景。现代渲染引擎（Unreal、Unity、Blender 的 Cycles）普遍使用 PBR（Physically Based Rendering）材质系统。一个完整的 PBR 材质不是一张「颜色贴图」，而是一组贴图的组合：基础色（Base Color）、法线（Normal）、金属度（Metallic）、粗糙度（Roughness）、环境光遮蔽（AO）等等。这些贴图之间有严格的物理约束关系——比如金属度高的区域，基础色应该偏暗且饱和度低；粗糙度低的区域，反射应该更锐利。

之前的 3D 生成模型大多只生成一张颜色贴图，或者把 PBR 各通道独立生成再拼在一起。结果就是材质看起来「假」——金属不像金属，塑料不像塑料，放到真实光照环境下一打光就穿帮。

Seed3D 2.0 的做法是用一个统一的生成模型联合建模完整的 PBR 贴图。也就是说，所有材质通道是一起生成的，模型在训练阶段就学会了各通道之间的物理约束关系。

在架构上，Seed3D 2.0 采用了 MoE（Mixture of Experts，混合专家）架构。MoE 在大语言模型领域已经被验证过了（GPT-4 被广泛认为使用了 MoE，DeepSeek-V2/V3 也是），核心优势是通过稀疏专家路由，在扩大模型总参数量的同时控制实际推理时的计算量。

放到 3D 材质生成的场景里，MoE 的好处很具体：不同的专家可以「专精」不同类型的材质细节。比如某些专家负责处理金属-粗糙度的边界过渡，某些专家负责处理高频纹理细节（布料的编织纹理、木材的年轮），某些专家负责处理大面积的平滑渐变。这样既能提升分辨率和细节丰富度，又不会让推理成本线性爆炸。

另一个值得注意的设计是引入了 VLM（Vision-Language Model）先验来增强材质分解的稳定性。

这解决的是一个经典难题：当输入图像的光照条件未知时，模型很难区分「物体本身的颜色」和「光照造成的明暗变化」。比如一张在暖色灯光下拍的白色陶瓷杯照片，模型可能会把暖色调当成杯子本身的颜色烘焙进基础色贴图里。VLM 先验相当于给模型提供了一个「常识判断」——它见过足够多的图文对，知道陶瓷通常是什么颜色、金属通常有什么样的反射特征，从而在光照条件不理想时也能做出合理的材质分解。

评测：60 位专业打分员的盲评

字节没有只放自动化指标，而是做了一轮相当扎实的人工评测。

他们招募了 60 位有 3D 建模经验的打分员，对 Seed3D 2.0 和六个主流 3D 生成模型进行两两盲评对比。评测分两个维度：

纯几何结构生成质量
带纹理贴图的完整 3D 资产生成质量

结果是 Seed3D 2.0 在两个维度上都拿到了最高偏好率。特别是在带纹理的完整 3D 生成对比中，面对目前行业内的主流模型，Seed3D 2.0 的偏好率达到 69% 以上。

69% 这个数字什么概念？在两两对比中，50% 是随机水平，60% 已经算明显优势，69% 意味着大约每 10 次对比中有 7 次被认为更好。考虑到打分员都是有建模经验的专业人士，不是随便拉来的众包标注员，这个结果的可信度还是比较高的。

Seed3D 2.0 与六个主流 3D 生成模型的人类偏好率盲评对比结果

当然，人工评测的局限性也要说清楚：60 人的样本量不算大，评测集的覆盖范围（什么类型的物体、什么复杂度）也会影响结论的泛化性。字节公开了技术报告，具体的评测细节可以去看原文。

不只是生成：部件分割、铰接资产、场景组合

Seed3D 2.0 不只是一个「输入文本/图片 → 输出 3D 模型」的生成器。技术报告里还展示了几个扩展能力：

部件级分割与补全：生成的 3D 模型不是一个整体的 mesh 块，而是可以自动分割成语义化的部件。比如一把椅子会被分成椅面、椅背、四条腿。缺失的部件还能自动补全。
铰接资产生成：能生成带有关节约束的可动资产。比如一个机械臂，各关节的旋转轴和运动范围是定义好的，可以直接用于物理仿真。
场景组合生成：基于图像、视频或文本输入，生成包含多个物体的完整场景，而不只是单个物体。

这几个能力把 Seed3D 2.0 从「生成好看的 3D 模型」推向了「生成可用的 3D 资产」。对于游戏开发、机器人仿真、数字孪生这些场景来说，部件分割和铰接约束的价值可能比几何精度本身还大——因为这些是把生成结果接入实际 pipeline 的前提条件。

跟竞品比怎么样

目前 3D 生成赛道的主要玩家包括：

OpenAI 的相关探索（主要通过 Shap-E 等研究项目）
Google DeepMind 的相关工作
Stability AI 曾推出的 3D 生成模型
Tripo、Meshy 等专注 3D 生成的创业公司
以及各大高校实验室的开源项目

Seed3D 2.0 的优势主要体现在两个方面：一是几何精度和材质真实感确实做到了目前公开评测中的最优水平；二是它不只做生成，还做了部件分割、铰接资产这些面向实际部署的能力，这在同类模型中比较少见。

劣势或者说不确定性也有：API 目前只上线了火山引擎，生态相对封闭；定价和调用限制还不清楚；实际生产环境中的稳定性和一致性需要更多用户验证。另外，3D 生成领域迭代很快，SOTA 的保质期通常不长。

对开发者意味着什么

如果你在做以下方向，Seed3D 2.0 值得关注：

游戏开发中的 3D 资产批量生产
电商场景的商品 3D 展示
机器人仿真环境的场景构建
数字孪生项目中的物理世界建模
AR/VR 内容的快速原型制作

API 已经上线火山引擎，可以直接调用测试。对于需要大量 3D 资产但建模人力有限的团队来说，这类工具的成熟度正在接近「可用」的临界点。

不过也别期望太高。「SOTA」和「生产可用」之间还有不小的距离。生成模型的输出在一致性、可控性上跟手工建模还有差距，更现实的用法可能是用它来快速出初稿，再由美术手动调整，而不是完全替代人工建模流程。

一点判断

字节在 AI 基础设施上的投入力度一直不小，从豆包大模型到 Seed 系列，再到现在的 3D 生成，布局越来越完整。Seed3D 2.0 的发布说明字节不只是在追文本和图像生成的热点，而是在认真做 3D 这个相对冷门但潜力巨大的方向。

3D 生成之所以重要，是因为它可能是 AI 从「生成内容」走向「生成世界」的关键一步。文本、图像、视频都是二维信息的不同形态，而 3D 资产是构建虚拟世界和连接物理世界的基础单元。从这个角度看，Seed3D 2.0 不只是一个模型发布，更是字节在空间计算和具身智能方向上的一次重要落子。

当然，模型好不好，最终还是要看开发者用起来的真实反馈。API 已经开放了，有兴趣的可以去火山引擎上试试。

参考来源

字节跳动发布 3D 生成大模型 Seed3D 2.0，在几何/纹理材质生成上取得 SOTA - IT之家：详细的技术报告解读和评测数据

字节 Seed3D 2.0：3D 生成卷到工业级

字节 Seed3D 2.0：3D 生成卷到工业级

为什么值得关注

核心技术拆解

几何生成：Coarse-to-Fine 两阶段策略

纹理材质：MoE 架构 + VLM 先验

评测：60 位专业打分员的盲评

不只是生成：部件分割、铰接资产、场景组合

跟竞品比怎么样

对开发者意味着什么

一点判断

参考来源

相关推荐

大晓开源端侧具身世界模型Kairos 3.0，4B参数干翻Cosmos 2.5

OpenRouter 推出 Fusion API：拼好模打平 Claude Fable 5

QoderWork 给 AI 助理装了个"意识"：会记忆、会反思、会自己长技能

联系我们