腾讯开源混元3D世界模型2.0:AI学会了造世界

模型上新

腾讯今日发布并开源混元3D世界模型2.0(HY-World 2.0),首次实现从文字、图片直接生成可编辑、可导入游戏引擎的3D世界资产,标志着AI 3D生成从「捏物体」正式进化到「造世界」。

腾讯今天正式发布并开源了混元 3D 世界模型 2.0(HY-World 2.0)。一句话概括这次升级的核心变化:AI 生成的 3D 世界,终于能直接拿来用了。

此前不管是谷歌的 Genie 3 还是腾讯自家的混元世界模型 1.5,所谓的「世界模型」生成的本质上还是视频——你能看,但不能碰。HY-World 2.0 把这层窗户纸捅破了:它输出的是真正的 3D 资产文件(Mesh、3DGS、点云),可以直接导入 Unity、Unreal Engine 进行二次编辑。

这不是一个渐进式的版本迭代,而是一次能力维度的跃迁。

从「看视频」到「进世界」:2.0 到底改了什么

混元世界模型的演进路线很清晰:1.0 做到了生成可漫游的 3D 场景;1.5(WorldPlay)加入了实时生成框架和空间记忆能力;而 2.0 解决的是最后一公里的问题——让生成结果真正进入生产管线。

具体来说,HY-World 2.0 是一个多模态世界模型,接受文字、图片、视频、草图等多种输入,输出完整的 3D 世界。它的核心能力可以拆成三块:

  • 世界生成:输入一段文字描述或一张概念图,模型自动生成包含人、物、景的完整 3D 空间,支持真实风、漫画风、游戏风等多种风格
  • 场景重建:输入一段真实空间的视频或多视角图片,模型构建出高精度的数字孪生空间
  • 交互探索:支持角色模式,用户可以操控角色在生成的世界中自由行走,有物理碰撞,不限时间

混元3D世界模型2.0多模态输入生成3D世界的效果对比图,展示文字生成、图片生成和场景重建三种模式

最后一点值得多说两句。所谓「角色模式」,不是那种固定路径的场景漫游,而是真正有物理碰撞检测的自由探索。你操控的角色撞到墙会停下来,走到桌子边会被挡住。这背后依赖的是 HY-World 2.0 同时生成 3DGS(用于高质量渲染)和 Mesh(用于碰撞检测)的混合表征方案。

这个设计很聪明。3DGS 的视觉效果好但没有几何拓扑信息,Mesh 有拓扑但渲染质量不如 3DGS,两者混合使用,既保证了画面质量,又让物理交互成为可能。

技术架构:以 3D 为核心的统一框架

从技术路线上看,HY-World 2.0 做了一件很有野心的事:把空间理解、生成和重建统一到了一个框架里。

传统的 3D 重建方法(比如 NeRF 系列)需要精确的相机参数——相机在哪、朝哪个方向、焦距多少,这些信息缺一不可。但现实场景中,用户随手拍的视频哪来的精确相机参数?这一直是 3D 重建落地的一大痛点。

HY-World 2.0 的解法是升级后的 WorldMirror 2.0 架构。它支持任意尺寸的图像和视频输入,一次性预测密集点云、多视角深度图、表面法线以及相机参数。换句话说,相机参数不再是输入条件,而是模型自己推理出来的输出结果之一。

这个思路的好处是显而易见的:用户不需要专业设备,不需要标定流程,拿手机拍一圈视频就能重建出高精度的 3D 场景。对于室内装修预览、城市规划、文化遗产数字化这些场景来说,使用门槛直接降了一个量级。

在世界生成这条线上,模型的架构也做了全面升级。相比 1.0 版本,2.0 在画面精细度和真实感上有明显提升。更关键的是,它继承了 1.5 版本引入的空间一致性记忆机制——你在生成的世界里走到一个区域,离开后再回来,模型能「记住」这个区域的三维结构,不会出现前后不一致的情况。

这个能力听起来理所当然,但对世界模型来说其实很难。因为模型在生成过程中需要维护一个全局一致的空间表征,而不是每次只看到局部就随机生成。这背后是 SOTA 级的空间记忆机制在支撑。

对游戏行业意味着什么

说实话,AI 3D 生成这个赛道已经热闹了两年多,但真正让游戏开发者兴奋的产品并不多。原因很简单:大多数 AI 生成的 3D 内容,质量达不到生产标准,或者格式不兼容,导入引擎后还要花大量时间返工。

HY-World 2.0 在这个问题上的态度很明确:直接对接现有工作流。生成的资产支持导出为 Mesh、3DGS、点云等主流格式,可以直接导入 Unity 和 Unreal Engine。

这意味着什么?一个关卡设计师可以用一段文字描述快速生成一个关卡原型,导入引擎后在此基础上调整细节,而不是从零开始搭建。一个独立游戏开发者可以用几张概念图生成整个游戏地图的初始版本,把时间花在玩法设计而不是场景建模上。

根据腾讯混元团队此前公布的数据,使用混元 3D 后,制作一个轻量游戏道具的时间从两天缩短到 0.2 天。世界模型 2.0 把这个效率提升从单个物体扩展到了整个场景级别。

当然,要泼一盆冷水的是:AI 生成的场景目前更适合作为「初稿」或「原型」,距离 3A 游戏的美术标准还有差距。但对于独立游戏、轻量级游戏、关卡原型设计这些场景,它的实用价值已经很明确了。

开源策略:腾讯的长期主义

混元 3D 系列从第一代开始就坚持开源,这次 2.0 也不例外。模型权重、训练代码都会在 GitHub 和 Hugging Face 上发布。

回顾混元 3D 的发展时间线,能看出腾讯在这个方向上的投入节奏:

时间 版本 关键能力
2024年11月 Hunyuan3D 1.0 首代开源,文/图生3D
2025年1月 Hunyuan3D 2.0 架构升级
2025年6月 Hunyuan3D 2.1 引入PBR材质生成
2025年7月 世界模型 1.0 可漫游3D场景生成
2025年9月 Hunyuan3D 3.0 3D-DiT分级雕刻,参数量10B
2025年12月 世界模型 1.5 实时生成+空间记忆
2026年4月 世界模型 2.0 可编辑3D资产输出,统一框架

不到两年时间,迭代了七个大版本。这个节奏在国内 AI 3D 生成领域算是最快的一档。

开源的好处不只是社区贡献。对腾讯来说,混元 3D 的开源生态直接服务于腾讯云的 API 商业化,以及混元 3D 创作引擎(包括国际站)的用户增长。模型能力越强、社区越活跃,平台的商业价值就越大。

竞品对比:混元世界模型 2.0 的位置

目前全球范围内做世界模型的玩家不多,能拿出来比的主要是谷歌的 Genie 系列。

和 Genie 3 相比,HY-World 2.0 的核心优势在两个方面:一是输出格式,Genie 3 生成的是视频,HY-World 2.0 生成的是可编辑的 3D 资产;二是场景完整度,混元在物体侧面和背面的生成质量上表现更好,不会出现「正面好看、背面糊掉」的问题。

不过也要承认,谷歌在基础模型能力和数据规模上的积累不容小觑。世界模型这个赛道还处于早期,格局远未确定。

国内方面,字节跳动、阿里也在 3D 生成方向有布局,但目前还没有发布对标世界模型级别的产品。腾讯混元在这个细分方向上暂时领先了半个身位。

更远的想象空间

世界模型的价值不止于游戏。

具身智能是一个很直接的应用方向。训练机器人需要大量的仿真环境,而传统的仿真环境搭建成本很高。如果能用世界模型快速生成多样化的 3D 仿真场景,机器人训练的数据瓶颈就有可能被打破。HY-World 2.0 生成的资产可以直接导入具身仿真引擎,这个能力显然是为这个场景准备的。

数字孪生是另一个方向。用手机视频重建真实空间的能力,天然适合室内设计、建筑规划、文化遗产保护等场景。想象一下,对着一栋老建筑拍一圈视频,就能得到一个高精度的数字模型,这在技术上已经不是科幻了。

对于开发者来说,如果你想体验混元 3D 世界模型 2.0 的能力,可以关注其 GitHub 开源仓库获取模型权重和代码。腾讯云也提供了相关的 API 服务。值得一提的是,像 OpenAI Hub 这类 AI API 聚合平台也在持续跟进国内主流模型的接入,开发者可以留意后续的模型支持更新。

写在最后

从 2024 年底的 1.0 到今天的世界模型 2.0,混元 3D 用一年半的时间走完了从「生成一个物体」到「生成一个世界」的路。这个进化速度,放在整个 AI 行业里都算得上激进。

但更值得关注的不是速度,而是方向。HY-World 2.0 选择了「实用性优先」的路线——不追求生成最炫酷的 demo 视频,而是确保生成结果能直接进入生产管线。这个选择,可能比任何技术指标都更能决定世界模型这个赛道的未来走向。

AI 从对话到画图,从画图到捏物体,从捏物体到造世界。每一步跨越的不只是技术门槛,更是应用场景的边界。混元世界模型 2.0 迈出的这一步,让「AI 造世界」第一次有了工程化落地的可能。

接下来就看,开发者们会用它造出什么样的世界了。


参考来源: