腾讯混元世界模型 2.0:从生成视频到直接造游戏

模型上新

腾讯混元 HY-World 2.0 开源发布,支持文本/图片/视频多模态输入直接生成可编辑的 3D 世界资产,能导出 Mesh/3DGS/点云格式无缝对接 Unity/UE 引擎,让 AI 从「画图」进化到「造世界」。

腾讯混元世界模型 2.0:从生成视频到直接造游戏

腾讯今天(4月16日)开源了混元 3D 世界模型 2.0(HY-World 2.0),这次升级的核心变化是:AI 不再只是生成视频文件,而是直接输出可编辑的 3D 资产。

这意味着什么?你输入一句话或一张图,模型生成的不是视频演示,而是能直接导入 Unity、Unreal Engine 的 3D 场景文件——包括 Mesh 网格、3D Gaussian Splatting(3DGS)点云、深度图、法线贴图等完整资产。游戏开发者拿到手就能二次编辑,用来快速搭建地图原型或关卡框架。

HY-World 2.0 生成的 3D 场景示例,展示从文本输入到可编辑 3D 资产的完整流程

跟 Genie 3 的本质区别

谷歌的 Genie 3 和腾讯自家的混元世界模型 1.5 都是生成视频文件——你看到的是渲染好的画面序列,想改场景布局或物体材质?没门,只能重新生成。

HY-World 2.0 的输出是结构化的 3D 数据。举个例子:

  • Genie 3:生成一段「赛博朋克街道」的视频,分辨率、视角、光照都固定死了
  • HY-World 2.0:生成包含建筑模型、地面网格、光源配置的 3D 场景文件,你可以在引擎里调整建筑高度、更换材质、重新布光

这不是「更好的视频生成」,而是工作流的代际差异。前者是演示工具,后者是生产工具。

多模态输入,统一 3D 输出

HY-World 2.0 支持三种输入方式:

1. 文本生成世界

输入描述性文字,模型解析语义后生成对应的 3D 场景。官方演示里提到可以指定风格——真实风、漫画风、游戏风——这意味着底层有风格控制模块,不是简单的文本到图像再到 3D 的串联。

2. 单图/多图生成

上传一张参考图(比如概念设计稿),模型会推理出完整的 3D 空间。如果提供多视角图片,重建精度会更高。这里用的是升级后的 WorldMirror 2.0 架构,能一次性预测:

  • 密集点云(用于几何重建)
  • 多视角深度图(用于空间关系)
  • 表面法线(用于光照计算)
  • 相机参数(用于视角校准)

3. 视频重建真实场景

拍一段室内或街道的视频,模型能构建出数字孪生空间。这个能力对室内设计、城市规划、文化遗产数字化保护有直接价值——不需要专业的激光扫描设备,手机拍个视频就能生成高精度 3D 模型。

技术架构:3D 为主轴的统一框架

传统的世界模型是「视频生成模型」的马甲,本质是在像素空间做时序预测。HY-World 2.0 的架构逻辑不同:

  1. 输入处理:多模态编码器将文本/图像/视频统一映射到语义空间
  2. 3D 理解:空间理解模块推理几何结构、物理关系、遮挡关系
  3. 混合表征生成:同时输出 3DGS(高保真渲染)和 Mesh(可编辑几何)
  4. 多格式导出:支持点云、网格、体素等格式,适配不同引擎需求

这个架构的关键是「3D 为主轴」——不是先生成 2D 图像再转 3D,而是直接在 3D 空间建模。这样做的好处是:

  • 几何一致性:物体的侧面和背面不会出现「视频生成模型」常见的扭曲或消失
  • 物理可交互:生成的场景有真实的碰撞体积,可以放入角色进行物理交互
  • 可编辑性:Mesh 格式天然支持顶点编辑、UV 展开、材质替换

角色模式:不只是看,还能玩

HY-World 2.0 支持「角色模式」——你可以操作一个角色在生成的世界里自由移动,有物理碰撞,不限时间。

这听起来像游戏,但技术实现完全不同。传统游戏引擎是预先建好场景,角色在固定地图里活动。这里是 AI 实时维护一个「世界状态」,角色移动时动态生成或加载周边区域,类似《我的世界》的区块加载机制,但生成逻辑由神经网络驱动。

这个能力对游戏原型验证很有用。策划想测试一个关卡设计,不需要等美术建模,直接描述场景让 AI 生成,然后在角色模式里跑一遍,看流程是否合理、节奏是否流畅。

对比其他世界模型:实用性是分水岭

目前主流的世界模型可以分两类:

视频生成类

  • 谷歌 Genie 3:输入文本或图像,生成可交互视频
  • 混元世界模型 1.5:类似能力,但视频质量更高
  • 局限:输出是视频文件,无法二次编辑,无法导入引擎

3D 资产生成类

  • HY-World 2.0:输出可编辑的 3D 资产
  • 优势:直接对接生产流程,支持物理交互
  • 代价:技术复杂度更高,需要同时处理几何、纹理、光照

腾讯在官方对比中提到,HY-World 2.0 在「场景完整度」和「输入遵循度」上表现更优。场景完整度指的是物体侧面和背面的生成质量——视频生成模型经常在视角转动时出现穿帮,3D 原生模型不存在这个问题。输入遵循度是指生成结果与参考图的一致性,这涉及到多模态对齐的精度。

开源策略:模型权重 + 推理代码

腾讯这次是完全开源,包括模型权重和推理代码。开发者可以本地部署,也可以通过 API 调用。

如果你想快速测试,可以通过 OpenAI Hub 调用(假设已接入)。示例代码:

import openai

# 配置 OpenAI Hub
openai.api_base = "https://openai-hub.com/v1"
openai.api_key = "your-api-key"

# 调用 HY-World 2.0 生成 3D 场景
response = openai.ChatCompletion.create(
    model="hunyuan-world-2.0",
    messages=[
        {
            "role": "user",
            "content": "生成一个赛博朋克风格的街道场景,包含霓虹灯招牌和湿漉漉的地面"
        }
    ],
    # 指定输出格式
    response_format={"type": "3d_asset", "formats": ["mesh", "3dgs"]}
)

# 下载生成的 3D 资产
asset_url = response.choices[0].message.content
print(f"3D 资产下载链接: {asset_url}")

如果需要从图片生成:

response = openai.ChatCompletion.create(
    model="hunyuan-world-2.0",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "根据这张图片生成完整的 3D 场景"},
                {"type": "image_url", "image_url": {"url": "https://example.com/reference.jpg"}}
            ]
        }
    ],
    response_format={"type": "3d_asset", "formats": ["mesh", "point_cloud"]}
)

应用场景:不只是游戏

虽然官方主打游戏开发,但 HY-World 2.0 的能力边界远不止于此:

游戏开发

  • 快速生成地图原型,验证关卡设计
  • 自动生成背景场景,降低美术成本
  • 根据玩家行为动态生成内容(程序化生成的升级版)

影视制作

  • 虚拟场景预览,替代传统的故事板
  • 快速搭建虚拟拍摄环境
  • 数字资产库的自动化扩充

建筑与设计

  • 室内设计方案的 3D 可视化
  • 建筑外观的快速迭代
  • 城市规划的数字孪生

教育与培训

  • 历史场景的 3D 重建
  • 虚拟实验室环境
  • 安全培训的沉浸式场景

元宇宙与社交

  • 用户自定义虚拟空间
  • 社交场景的动态生成
  • 虚拟活动的快速搭建

技术挑战:从「能用」到「好用」

尽管 HY-World 2.0 在技术上有明显突破,但距离大规模商用还有几个问题需要解决:

1. 生成质量的稳定性

神经网络生成的 3D 资产质量波动较大。同样的输入,多次生成的结果可能差异明显。这对需要精确控制的专业场景(如建筑设计)是个问题。

2. 细节控制的粒度

目前的输入方式(文本或图片)对细节的控制力有限。如果你想精确指定某个物体的尺寸、位置、材质,纯自然语言描述很难做到。可能需要引入结构化的参数输入或交互式编辑界面。

3. 资产的优化程度

AI 生成的 3D 模型往往面数过高、拓扑结构混乱,不适合直接用于实时渲染。需要额外的优化步骤(减面、重拓扑、烘焙贴图),这部分工作目前还需要人工介入。

4. 物理属性的准确性

生成的场景虽然有碰撞体积,但物理属性(质量、摩擦系数、弹性)是估算的,不一定符合真实物理规律。对物理模拟要求高的应用(如工程仿真)还不能直接使用。

行业影响:生产工具的范式转变

HY-World 2.0 的意义不在于「AI 又能做一件新事情」,而在于它改变了内容生产的工作流。

传统的 3D 内容制作是线性流程:概念设计 → 建模 → 贴图 → 光照 → 渲染。每个环节都需要专业人员,周期长、成本高。

AI 世界模型把这个流程压缩成:描述需求 → 生成初稿 → 人工调整。初稿质量越高,人工调整的工作量越小。当 AI 生成的质量达到「可用」的阈值,整个行业的生产效率会出现数量级提升。

这对小团队和独立开发者尤其重要。以前做一个 3D 游戏,美术成本是最大的门槛。现在一个程序员加一个策划,借助 AI 工具就能搭出可玩的原型。虽然精细度比不上 3A 大作,但对独立游戏、教育应用、企业培训这些场景已经够用。

与其他 AI 能力的协同

HY-World 2.0 不是孤立的工具,它可以和其他 AI 能力组合:

  • + 大语言模型:用 LLM 生成游戏剧情和关卡描述,再用世界模型生成对应场景
  • + 角色生成模型:世界模型生成场景,角色生成模型填充 NPC,形成完整的游戏世界
  • + 动作生成模型:在生成的场景里,AI 角色可以根据环境自动规划动作
  • + 物理仿真引擎:生成的 3D 资产导入物理引擎,进行真实的力学模拟

这种模块化的 AI 能力组合,会催生新的开发范式。开发者不再从零开始写代码、建模型,而是像搭积木一样组合 AI 模块,快速实现想法。

开源的战略意图

腾讯选择完全开源 HY-World 2.0,背后有几层考虑:

1. 建立技术标准

世界模型还在早期阶段,没有统一的技术标准和评估体系。开源可以让更多开发者参与,推动标准的形成。谁的标准被广泛采用,谁就掌握了话语权。

2. 构建生态

3D 内容生产涉及建模软件、游戏引擎、渲染器等复杂生态。开源可以让这些工具厂商基于 HY-World 2.0 开发插件和集成方案,形成完整的工具链。

3. 数据飞轮

开源模型会被大量使用,使用过程中产生的数据(生成结果、用户反馈、调整记录)可以用来持续优化模型。这是一个正向循环:模型越好,用户越多;用户越多,数据越多;数据越多,模型越好。

4. 商业化路径

开源模型本身不赚钱,但可以通过云服务、企业版、技术支持等方式变现。这是开源软件的经典商业模式,已经在 Linux、Kubernetes 等项目上得到验证。

未来方向:从静态世界到动态世界

当前的世界模型生成的是「静态快照」——场景生成后就固定了,不会随时间演化。

下一代世界模型需要支持「动态演化」:

  • 时间维度:场景会随时间变化(白天黑夜、四季更替、建筑老化)
  • 交互维度:用户的操作会永久改变世界状态(砍树、建房、挖矿)
  • 社会维度:多个 AI 角色在世界里自主活动,形成复杂的社会关系

这需要世界模型从「生成器」进化为「模拟器」——不只是生成初始状态,还要模拟物理规律、生态系统、社会规则。这是一个更大的技术挑战,但也是更有想象力的方向。

如果 AI 能生成并模拟一个完整的、自洽的、可交互的虚拟世界,那它就不只是生产工具,而是创造工具——帮助人类创造新的现实。


参考来源