阿里 ATH 事业群正式发布世界模型产品 HappyOyster 1.0，主打实时生成可交互的开放数字世界，与谷歌 Genie 3 同处世界模拟器赛道，4 月内测、今晚正式开放。

阿里掏出世界模型 HappyOyster 1.0：一句话生成一个能走进去的世界

6 月 17 日晚，阿里云正式发布 HappyOyster 1.0（快乐生蚝），这是阿里 ATH（Alibaba Token Hub）事业群成立三个月之后端出来的第一款世界模型产品。一句话生成一个可漫游、可导演、可交互的数字世界——这事儿听上去像营销，但它今晚是真的把入口挂出来了，官网 happyoyster.cn 直接进，键盘 WASD 就能动。

这款产品其实早在 4 月 16 日已经低调内测，定位也很明确：与谷歌 Genie 3 同一条技术路线——世界模拟器（World Simulator）流派。今晚 1.0 版本意味着团队认为模型在长时一致性、实时性、音画同步这三件最难的事情上跨过了一道线。

不是 "文生视频"，是 "文生世界"

如果只看演示视频，HappyOyster 看上去很像 Sora、可灵、Veo 的近亲。但只要真的上手玩两分钟，你就会发现它和视频生成模型不是一类东西。

传统视频生成是 "输入 Prompt → 等渲染 → 拿到固定成片"，一次性流程，输出即终点。HappyOyster 把这条链路拆了——它在生成过程中持续接收用户指令，画面实时响应、持续演绎。你输入 "去海边"，画面就走过去；中途打字 "哄哄我"，虚拟男友立刻接话；觉得剧情不爽，暂停回溯，改一句台词重新演绎。

这是一种连续的、流式的、状态化的生成。技术上对应的概念叫 "主动式实时交互的世界模型"——4 月内测时阿里 ATH 自己打出的标签是 "全球首个"。Genie 3 走在前面但闭门内测，HappyOyster 这次直接开公测，节奏上算是抢了一波身位。

官网目前开放两个玩法入口：

实时导演（Directing）：偏内容生成。一句话开场，随时叫停随时改写，适合做短剧、互动剧本、数字人陪伴这种场景。官方主打的 demo 是 "虚拟男友实时互动"，你说什么 TA 接什么。
世界探索（Adventure）：偏游戏向。键盘 WASD 自由移动，能跳、能打、能飞，可以滑板冲刺、翼装滑翔、骑马奔驰，在极光冰原、深海、油画世界、怪诞梦境之间切换。

说白了，前者是 "AI 导演引擎"，后者是 "AI 游戏引擎"。共用同一个底层世界模型，只是把控制信号的入口包装成了两种产品形态。

三个硬骨头：长时一致、低延迟、音画同步

世界模型这个赛道，李飞飞 World Labs、英伟达 Cosmos、杨立昆的 JEPA 路线、谷歌 Genie 3，每家走法都不一样，但都绕不开三个工程难点：生成久了会不会崩、推理快不快、声音对不对得上画面。HappyOyster 这次把自己的技术路线讲得比较清楚，值得拆一下。

1. 长时世界建模：解决 "生成久了就错乱"

这是当前视频生成模型的通病——超过十几秒，人物会变脸、场景会漂移、物理规律会失控。HappyOyster 的做法是长时间跨度的世界演化建模，靠海量长视频数据训练模型去捕捉真实世界的状态转移逻辑。

关键的工程优化在于流式生成机制：模型不需要每一步都重建完整上下文，而是通过历史注意力状态的连续传递，渐进式地继承已生成的信息。这有点像 RNN 时代的 hidden state 思路，但是在大规模 Transformer 架构下被重新设计了。效果就是你在世界里走十分钟回头看，桌子还是那张桌子，NPC 还是那个 NPC。

2. 隐式 latent state：把延迟压下来

实时交互对延迟极敏感。你按 W 键角色不动，体验立刻崩。HappyOyster 的解法是把高维视频和多模态信息映射到一个紧凑的动态 latent state 上，做高度压缩的隐式建模，单步生成开销就降下来了。

这是世界模型的常见操作——你可以理解为模型不在像素层面生成，而是先在一个抽象的 "世界状态" 层面推演，再解码成画面。这跟自动驾驶里的 occupancy world model 思路在抽象层面相通，只是 HappyOyster 解码出来的不是 BEV 地图，而是带 BGM 的可玩画面。

3. 音画联合生成：BGM 不是后期配的

Demo 里有一个细节容易被忽略：HappyOyster 生成的世界自带 BGM，而且声音和画面是同步演化的。技术上音频被当作世界动态的一部分参与联合生成，跨模态时间对齐是模型自己学出来的，不是事后拼的。

这件事在 Sora 时代是分两步做的——先生成画面再贴音轨。HappyOyster 用的是原生多模态架构，输入和输出都在多模态空间里跑，路径上更接近 Google Veo 3 的思路。

控制信号一开始就埋进去了

HappyOyster 真正区别于一般视频生成模型的设计点，是把控制信号在建模初期就深度绑定进了世界生成流程。文本、Action（键盘/动作指令）、图像，全部作为持续输入参与到世界演化里，而不是只影响初始 Prompt。

这就是为什么你在画面跑起来之后，还能继续打字 "突然下雨"、"出现一只猫"、"角色转身"——外部指令会持续影响后续状态演化，而不是说 "对不起这条只能重新生成"。

从 "被动生成内容" 到 "主动模拟世界，让用户参与演化"，这是世界模型相对视频模型的范式跃迁。

玩法层面，已经能看出商业化想象

现在官网上能玩的几个方向，已经把 HappyOyster 的应用面铺得很开了：

互动短剧：暂停 → 输入期望走向 → 回溯重演。Netflix 当年砸钱做《黑镜：潘达斯奈基》交互剧，靠人工拍了几百个分支。HappyOyster 这套机制相当于把分支无限化、按需生成。
虚拟陪伴：虚拟男友/女友、云养萌宠、变身换装。这块流量逻辑国内大厂太熟了，HappyOyster 给出的是一个可视化、可动作、可对话的三合一形态。
轻量游戏化体验：WASD 攻击打怪跳跃躲藏，本质是 AI 实时生成的开放世界小游戏。生成速度还做不到 60fps 主机水准，但作为 "AI 玩具" 已经够吸引眼球。

阿里 ATH 团队自己给出的延伸场景更狠：文旅展陈、线下娱乐、机器人训练、数字人陪伴、教育演练、智能空间交互。一旦和摄像头、麦克风、空间传感器、显示终端、可穿戴设备打通，HappyOyster 就不只是个 App，而是一个 "能被现实输入持续驱动的生成式环境系统"。

机器人训练这条线尤其值得注意——这恰好是黄仁勋在 GTC 上反复强调的方向，世界模型作为机器人 sim2real 的合成数据源。阿里这次没有大谈这一块，但 ATH 旗下既有通义实验室也有 AI 创新事业部，技术栈是连通的。

跟 Genie 3 比，差在哪、强在哪

不绕弯子，正面对比一下。

Genie 3 的优势：DeepMind 整体的 RL 与世界建模积累深厚，物理一致性、长时稳定性目前业内口碑最好。但它的访问权限收得很紧，普通开发者目前基本摸不到。

HappyOyster 的优势：

正式开放，门槛低。官网即开即玩，每日登录还能领体验积分，活动持续到 7 月 17 日。
音画联合生成 + 自带 BGM，沉浸感这一块在公开 demo 里强于 Genie 3 的纯视觉演示。
同时支持 Direct 与 Adventure 两种交互范式，覆盖内容创作和游戏体验两类用户。

差距客观存在：分辨率目前仅 720p / 480p 可选，画面在复杂物理交互（多物体碰撞、流体）下还是会出现一些瑕疵，长时间生成的角色一致性偶有抖动。这都是世界模型当前的共性问题，不是 HappyOyster 一家的锅。

ATH 这盘棋

顺便说一下背后这个新事业群。阿里 ATH（Alibaba Token Hub）今年 3 月 16 日成立，距今刚满三个月。打的旗号是 "创造 Token、输送 Token、应用 Token"，旗下涵盖：

通义实验室（基础模型）
MaaS 业务线（模型即服务）
千问事业部（C 端 App）
悟空事业部
AI 创新事业部（HappyOyster 的研发团队）

HappyOyster 和此前公布的 HappyHorse 同属一个团队。从命名风格能看出 ATH 在做 "应用层快公司" 的打法，不再让所有产品都顶 "通义" 的牌子，而是允许子品牌有自己的腔调和用户感。这一点在国内大厂里其实是稀缺的。

一些直白的判断

聊几句不那么端着的：

第一，世界模型 2026 年会是一个新的竞争焦点。Sora 时代的视频生成走到尽头了，纯视频模型今年发布会基本只能卷分辨率和时长，用户感受已经麻木。世界模型的可交互性恰好补上了 "用户参与" 的缺口，是下一个有故事讲的方向。

第二，HappyOyster 1.0 的实际使用体验还需要更多用户去验证。官方 demo 永远是精挑细选的，真正能不能在 "我随便打字 30 分钟它都不崩" 这件事上扛住，是它和 Genie 3 真正分高下的地方。

第三，这玩意儿对独立游戏开发者、互动叙事工作室是真有用。以前做一个简单互动剧本得搭引擎、画美术、写脚本，现在 Prompt 即开发。短期内当然不会替代专业管线，但作为 "创意快速原型工具"，门槛已经塌下来了。

第四，国内 AI 用户能直接体验，这一点很重要。Genie 3 大部分人摸不到，HappyOyster 进官网就能玩，先发的用户认知很可能就被它占下。对开发者来说，这种 "看得见摸得着" 的产品 才有讨论的价值。

顺带一提，对于想集中接入 GPT、Claude、Gemini、DeepSeek 等主流模型 API 的开发者，OpenAI Hub（openai-hub.com）这种聚合平台仍然是国内直连的常用方案；但世界模型这一类目前还属于厂商自营的产品形态，HappyOyster 暂时不在 API 聚合的范畴里，想体验只能上官网。

写在最后

HappyOyster 这个名字其实有典故。莎士比亚在《温莎的风流娘儿们》里写过一句："The world is your oyster. Open it."（世界是你的生蚝，等你亲手打开）四百年后阿里把它做成了字面意义：说一句话，开一个世界。

这种产品命名上的轻浮和技术路线上的严肃形成了反差，但对一个面向 C 端用户、想要打入 "AI 玩具" 心智的产品来说，反而是合适的——开发者看技术细节，普通用户看名字记得住。两边都没浪费。

世界模型这一仗刚刚开始。HappyOyster 1.0 不会是终点，但它至少把 "用户能否真的走进去" 这件事从概念片推到了能上手玩的阶段。

参考来源

IT之家：阿里发布世界模型 HappyOyster 快乐生蚝 1.0 — 阿里云今晚发布 HappyOyster 1.0 的官方报道及玩法细节

阿里掏出世界模型 HappyOyster 1.0：一句话生成可走进去的世界