AI 快讯阿里掏出世界模型 HappyOyster 1.0:一句话生成可走进去的世界
模型上新

阿里掏出世界模型 HappyOyster 1.0:一句话生成可走进去的世界

2026-06-17T14:05:29.348Z

阿里 ATH 事业群正式发布世界模型产品 HappyOyster 1.0,主打实时生成可交互的开放数字世界,与谷歌 Genie 3 同处世界模拟器赛道,4 月内测、今晚正式开放。

阿里掏出世界模型 HappyOyster 1.0:一句话生成一个能走进去的世界

6 月 17 日晚,阿里云正式发布 HappyOyster 1.0(快乐生蚝),这是阿里 ATH(Alibaba Token Hub)事业群成立三个月之后端出来的第一款世界模型产品。一句话生成一个可漫游、可导演、可交互的数字世界——这事儿听上去像营销,但它今晚是真的把入口挂出来了,官网 happyoyster.cn 直接进,键盘 WASD 就能动。

这款产品其实早在 4 月 16 日已经低调内测,定位也很明确:与谷歌 Genie 3 同一条技术路线——世界模拟器(World Simulator)流派。今晚 1.0 版本意味着团队认为模型在长时一致性、实时性、音画同步这三件最难的事情上跨过了一道线。

不是 "文生视频",是 "文生世界"

如果只看演示视频,HappyOyster 看上去很像 Sora、可灵、Veo 的近亲。但只要真的上手玩两分钟,你就会发现它和视频生成模型不是一类东西。

传统视频生成是 "输入 Prompt → 等渲染 → 拿到固定成片",一次性流程,输出即终点。HappyOyster 把这条链路拆了——它在生成过程中持续接收用户指令,画面实时响应、持续演绎。你输入 "去海边",画面就走过去;中途打字 "哄哄我",虚拟男友立刻接话;觉得剧情不爽,暂停回溯,改一句台词重新演绎。

这是一种连续的、流式的、状态化的生成。技术上对应的概念叫 "主动式实时交互的世界模型"——4 月内测时阿里 ATH 自己打出的标签是 "全球首个"。Genie 3 走在前面但闭门内测,HappyOyster 这次直接开公测,节奏上算是抢了一波身位。

官网目前开放两个玩法入口:

  • 实时导演(Directing):偏内容生成。一句话开场,随时叫停随时改写,适合做短剧、互动剧本、数字人陪伴这种场景。官方主打的 demo 是 "虚拟男友实时互动",你说什么 TA 接什么。
  • 世界探索(Adventure):偏游戏向。键盘 WASD 自由移动,能跳、能打、能飞,可以滑板冲刺、翼装滑翔、骑马奔驰,在极光冰原、深海、油画世界、怪诞梦境之间切换。

说白了,前者是 "AI 导演引擎",后者是 "AI 游戏引擎"。共用同一个底层世界模型,只是把控制信号的入口包装成了两种产品形态。

三个硬骨头:长时一致、低延迟、音画同步

世界模型这个赛道,李飞飞 World Labs、英伟达 Cosmos、杨立昆的 JEPA 路线、谷歌 Genie 3,每家走法都不一样,但都绕不开三个工程难点:生成久了会不会崩、推理快不快、声音对不对得上画面。HappyOyster 这次把自己的技术路线讲得比较清楚,值得拆一下。

1. 长时世界建模:解决 "生成久了就错乱"

这是当前视频生成模型的通病——超过十几秒,人物会变脸、场景会漂移、物理规律会失控。HappyOyster 的做法是长时间跨度的世界演化建模,靠海量长视频数据训练模型去捕捉真实世界的状态转移逻辑。

关键的工程优化在于流式生成机制:模型不需要每一步都重建完整上下文,而是通过历史注意力状态的连续传递,渐进式地继承已生成的信息。这有点像 RNN 时代的 hidden state 思路,但是在大规模 Transformer 架构下被重新设计了。效果就是你在世界里走十分钟回头看,桌子还是那张桌子,NPC 还是那个 NPC。

2. 隐式 latent state:把延迟压下来

实时交互对延迟极敏感。你按 W 键角色不动,体验立刻崩。HappyOyster 的解法是把高维视频和多模态信息映射到一个紧凑的动态 latent state 上,做高度压缩的隐式建模,单步生成开销就降下来了。

这是世界模型的常见操作——你可以理解为模型不在像素层面生成,而是先在一个抽象的 "世界状态" 层面推演,再解码成画面。这跟自动驾驶里的 occupancy world model 思路在抽象层面相通,只是 HappyOyster 解码出来的不是 BEV 地图,而是带 BGM 的可玩画面。

3. 音画联合生成:BGM 不是后期配的

Demo 里有一个细节容易被忽略:HappyOyster 生成的世界自带 BGM,而且声音和画面是同步演化的。技术上音频被当作世界动态的一部分参与联合生成,跨模态时间对齐是模型自己学出来的,不是事后拼的。

这件事在 Sora 时代是分两步做的——先生成画面再贴音轨。HappyOyster 用的是原生多模态架构,输入和输出都在多模态空间里跑,路径上更接近 Google Veo 3 的思路。

控制信号一开始就埋进去了

HappyOyster 真正区别于一般视频生成模型的设计点,是把控制信号在建模初期就深度绑定进了世界生成流程。文本、Action(键盘/动作指令)、图像,全部作为持续输入参与到世界演化里,而不是只影响初始 Prompt。

这就是为什么你在画面跑起来之后,还能继续打字 "突然下雨"、"出现一只猫"、"角色转身"——外部指令会持续影响后续状态演化,而不是说 "对不起这条只能重新生成"。

从 "被动生成内容" 到 "主动模拟世界,让用户参与演化",这是世界模型相对视频模型的范式跃迁。

玩法层面,已经能看出商业化想象

现在官网上能玩的几个方向,已经把 HappyOyster 的应用面铺得很开了:

  • 互动短剧:暂停 → 输入期望走向 → 回溯重演。Netflix 当年砸钱做《黑镜:潘达斯奈基》交互剧,靠人工拍了几百个分支。HappyOyster 这套机制相当于把分支无限化、按需生成。
  • 虚拟陪伴:虚拟男友/女友、云养萌宠、变身换装。这块流量逻辑国内大厂太熟了,HappyOyster 给出的是一个可视化、可动作、可对话的三合一形态。
  • 轻量游戏化体验:WASD 攻击打怪跳跃躲藏,本质是 AI 实时生成的开放世界小游戏。生成速度还做不到 60fps 主机水准,但作为 "AI 玩具" 已经够吸引眼球。

阿里 ATH 团队自己给出的延伸场景更狠:文旅展陈、线下娱乐、机器人训练、数字人陪伴、教育演练、智能空间交互。一旦和摄像头、麦克风、空间传感器、显示终端、可穿戴设备打通,HappyOyster 就不只是个 App,而是一个 "能被现实输入持续驱动的生成式环境系统"

机器人训练这条线尤其值得注意——这恰好是黄仁勋在 GTC 上反复强调的方向,世界模型作为机器人 sim2real 的合成数据源。阿里这次没有大谈这一块,但 ATH 旗下既有通义实验室也有 AI 创新事业部,技术栈是连通的。

跟 Genie 3 比,差在哪、强在哪

不绕弯子,正面对比一下。

Genie 3 的优势:DeepMind 整体的 RL 与世界建模积累深厚,物理一致性、长时稳定性目前业内口碑最好。但它的访问权限收得很紧,普通开发者目前基本摸不到。

HappyOyster 的优势

  1. 正式开放,门槛低。官网即开即玩,每日登录还能领体验积分,活动持续到 7 月 17 日。
  2. 音画联合生成 + 自带 BGM,沉浸感这一块在公开 demo 里强于 Genie 3 的纯视觉演示。
  3. 同时支持 Direct 与 Adventure 两种交互范式,覆盖内容创作和游戏体验两类用户。

差距客观存在:分辨率目前仅 720p / 480p 可选,画面在复杂物理交互(多物体碰撞、流体)下还是会出现一些瑕疵,长时间生成的角色一致性偶有抖动。这都是世界模型当前的共性问题,不是 HappyOyster 一家的锅。

ATH 这盘棋

顺便说一下背后这个新事业群。阿里 ATH(Alibaba Token Hub)今年 3 月 16 日成立,距今刚满三个月。打的旗号是 "创造 Token、输送 Token、应用 Token",旗下涵盖:

  • 通义实验室(基础模型)
  • MaaS 业务线(模型即服务)
  • 千问事业部(C 端 App)
  • 悟空事业部
  • AI 创新事业部(HappyOyster 的研发团队)

HappyOyster 和此前公布的 HappyHorse 同属一个团队。从命名风格能看出 ATH 在做 "应用层快公司" 的打法,不再让所有产品都顶 "通义" 的牌子,而是允许子品牌有自己的腔调和用户感。这一点在国内大厂里其实是稀缺的。

一些直白的判断

聊几句不那么端着的:

第一,世界模型 2026 年会是一个新的竞争焦点。Sora 时代的视频生成走到尽头了,纯视频模型今年发布会基本只能卷分辨率和时长,用户感受已经麻木。世界模型的可交互性恰好补上了 "用户参与" 的缺口,是下一个有故事讲的方向。

第二,HappyOyster 1.0 的实际使用体验还需要更多用户去验证。官方 demo 永远是精挑细选的,真正能不能在 "我随便打字 30 分钟它都不崩" 这件事上扛住,是它和 Genie 3 真正分高下的地方。

第三,这玩意儿对独立游戏开发者、互动叙事工作室是真有用。以前做一个简单互动剧本得搭引擎、画美术、写脚本,现在 Prompt 即开发。短期内当然不会替代专业管线,但作为 "创意快速原型工具",门槛已经塌下来了。

第四,国内 AI 用户能直接体验,这一点很重要。Genie 3 大部分人摸不到,HappyOyster 进官网就能玩,先发的用户认知很可能就被它占下。对开发者来说,这种 "看得见摸得着" 的产品 才有讨论的价值。

顺带一提,对于想集中接入 GPT、Claude、Gemini、DeepSeek 等主流模型 API 的开发者,OpenAI Hub(openai-hub.com)这种聚合平台仍然是国内直连的常用方案;但世界模型这一类目前还属于厂商自营的产品形态,HappyOyster 暂时不在 API 聚合的范畴里,想体验只能上官网。

写在最后

HappyOyster 这个名字其实有典故。莎士比亚在《温莎的风流娘儿们》里写过一句:"The world is your oyster. Open it."(世界是你的生蚝,等你亲手打开)四百年后阿里把它做成了字面意义:说一句话,开一个世界。

这种产品命名上的轻浮和技术路线上的严肃形成了反差,但对一个面向 C 端用户、想要打入 "AI 玩具" 心智的产品来说,反而是合适的——开发者看技术细节,普通用户看名字记得住。两边都没浪费。

世界模型这一仗刚刚开始。HappyOyster 1.0 不会是终点,但它至少把 "用户能否真的走进去" 这件事从概念片推到了能上手玩的阶段。


参考来源

相关推荐

查看全部

联系我们

我们通常在工作时间快速响应

扫码添加微信

专属客服:Hub 助手

微信号: