智元 WITA 大模型成为全国首个备案的具身智能交互模型，三季度将推出端到端多模态交互大模型 WITA Omni 1.0，交互时延压缩至 500ms 以内，接近真人对话节奏。

智元 WITA 大模型完成备案，三季度发布 Omni 1.0

上海市网信办昨天公布了新一批生成式 AI 服务备案名单，智元 WITA（硅光动语）大模型成为全国第一款完成合规备案的具身智能交互大模型。这个备案不只是走个流程，它意味着智元的交互智能技术栈已经可以正式商用，开始在导览、零售、服务等场景大规模部署。

交互智能的「部署态」来了

WITA 大模型的核心应用场景是人形机器人交互。和传统的语音助手不同,它要解决的是「让机器人像人一样说话」这个更难的问题——不只是语义理解,还要有情绪、语气、表情、动作的协同表达。

智元把这套能力叫做「交互智能部署态」。在 4 月的合作伙伴大会上,智元创始人邓泰华提出了具身智能的「一体三智」架构:一体是本体硬件,三智分别是运动智能、交互智能和作业智能。交互智能负责提供情绪价值和服务生产力,让机器人从「能动」升级为「会说」。

WITA 大模型已经在智元的灵犀 X3 人形交互终端上规模化应用。现场演示中,机器人可以自然地回应用户的问题,语气、表情、肢体动作协调一致,不再是那种「机械腔」的对话体验。这套系统已经在商场导购、酒店前台、展馆讲解等场景常态化运行。

智元灵犀 X3 人形机器人在商业场景中进行交互演示

WITA Omni 1.0:端到端的多模态交互

智元计划在今年三季度推出 WITA Omni 1.0,这是行业首个机器人原生的端到端全模态交互大模型。

传统的具身智能交互系统是拼接式的:语音识别用一个模型,语义理解用另一个,表情生成、动作规划又是独立的模块。这种架构的问题是各模块之间存在「语义鸿沟」,信息传递有损耗和延迟,导致机器人的反应总是慢半拍,表情和语气对不上。

WITA Omni 1.0 采用端到端架构,用单一模型处理从感知到表达的全链路。输入是多模态传感器数据(视觉、听觉、触觉),输出是协同的语言、语音、表情和动作控制指令。模型内部通过自注意力机制实现跨模态信息融合,避免了模块拼接的缺陷。

这带来了几个关键提升:

交互时延压缩至 500ms 以内

这是接近真人对话的节奏。人类对话的平均响应时间在 200-600ms,超过 1 秒就会感觉「卡顿」。传统机器人交互系统的时延通常在 1-2 秒,WITA Omni 1.0 把这个数字压到了 500ms 以内,可以实现正常语速的连续交流。

支持中途插话、打断、纠正

这是自然对话的核心特征。人类对话不是「你说完我再说」的回合制,而是可以随时插话、打断、补充。WITA Omni 1.0 保留了对话的情感、语境、音调、环境等上下文信息,可以实时响应用户的插话和打断,调整表达策略。

多模态协同表达

语言、语音、表情和动作不再割裂。当机器人说「我很高兴见到你」时,面部表情会同步展现微笑,肢体动作会做出欢迎的姿态,语气也会变得轻快。这种协同表达让交互体验更自然,更有「人格感」。

多模态交互数据飞轮

模型在真实场景部署中会持续学习。每一次交互都会产生多模态数据(用户的语言、表情、动作,机器人的响应效果),这些数据会反馈到模型训练中,让模型越用越聪明。智元在 4 月的大会上宣布启动「蜂巢数据共创行动」,预计年内实现千万小时级的交互数据产能。

具身智能的商业化路径

智元的「358 宏图计划」给出了清晰的时间表:2027 年实现超 100 亿营收,2030 年目标超 1000 亿营收。这个目标背后是对具身智能商业化路径的判断。

智元联合创始人彭志辉在香港具身智能产业峰会上提出了「XYZ 曲线」:

X 曲线(2022-2025):开发尝鲜期。完成从原型到规模量产的跨越,机器人从「展品」变为「商品」,实现「能动」。智元在 2025 年实现了 5000 台量产,2025 年收入 10.5 亿元。
Y 曲线(2026-2030):部署成长期。2026 年是「部署态元年」,交互智能和作业智能规模化落地,部署态数据飞轮驱动生产力持续逼近人类水平。智元计划在这个阶段跨越百亿营收门槛。
Z 曲线(2030 年及以后):部署普及期。具身智能在制造、物流、服务等领域的生产力全面超越人类,迎来「智能涌现」时刻,释放万亿级市场潜力。

WITA 大模型的备案和 Omni 1.0 的发布,标志着智元正式进入 Y 曲线阶段。交互智能不再是实验室技术,而是可以规模化部署、持续迭代的商业产品。

从「卖机器人」到「交付结果」

智元在 4 月的合作伙伴大会上发布了七大生产力解决方案,覆盖工业制造(3C 精密、工业搬运)、商业服务(门店导购、餐饮零售)和特种作业(安防巡检、商业清洁)。这些方案已经在龙旗、富临精工、上汽等头部企业的产线中常态化运行。

彭志辉强调,行业正在从「卖机器人」转向「交付结果」。客户不再只是买一台机器人回去自己调试,而是购买一套完整的解决方案——硬件本体、AI 模型、应用软件、部署服务、持续优化。

这种转变对技术栈提出了更高要求。智元的策略是「硬件模块化、软件组件化」,把机器人硬件、AI 模型、行业应用软件解耦,分别标准化,然后根据客户需求灵活组合。这和工业自动化领域的「交钥匙工程」思路类似。

智元还推出了全球机器人租赁平台「擎天租」,通过 RaaS(机器人即服务)模式降低客户的部署门槛。企业不需要一次性投入大量资金购买机器人,可以按需租赁,按使用时长付费。这种模式在四足机器人酷拓 D2 上已经跑通——智元酷拓 CEO 透露,中型四足机器人在今年一季度已经卖到「仓库无货」,2026 年营收目标 5 亿元。

技术栈的全面开放

智元在 4 月的大会上发布了 AIMA(AI Machine Architecture)全栈生态开发平台,采用「1+3+X」架构:

灵渠 OS:原生适配具身智能的开源操作系统
灵创平台:动作内容创作平台,开发者可以用自然语言描述动作,系统自动生成控制指令
灵心平台:智能体定制平台,支持快速构建特定场景的交互智能体
Genie Studio:一站式开发平台,集成了仿真测试、模型训练、部署管理等工具

智元还启动了「元苼」生态发展计划,未来 5 年将投入超 20 亿元,扶持科研创新、人才培养、生态伙伴发展和开发者社区运营。

这种全面开放的策略和特斯拉的 FSD、OpenAI 的 GPT 生态类似——通过开放底层能力,吸引开发者和合作伙伴在平台上构建应用,形成数据飞轮和网络效应。

具身智能的数据瓶颈

具身智能的发展面临一个核心瓶颈:数据。训练一个能干的具身智能系统需要海量高质量的机器人操作数据,而这些数据获取成本极高、难度极大。

智元的解决方案是「蜂巢数据共创行动」——构建全球首个物理 AI 数据网络。每一台部署在真实场景中的智元机器人都是一个数据节点,持续产生交互数据、操作数据、环境数据。这些数据经过脱敏和标注后,反馈到模型训练中,让所有机器人都能从中受益。

这种数据飞轮机制是具身智能商业化的关键。特斯拉的 FSD 就是靠着数百万辆车的实际行驶数据,不断迭代优化自动驾驶算法。智元的策略是复制这个模式——通过规模化部署积累数据,通过数据迭代提升能力,通过能力提升扩大部署规模,形成正向循环。

智元预计年内实现千万小时级的交互数据产能。按照每台机器人每天工作 8 小时计算,这相当于 3400 多台机器人一年的数据积累。这个规模在具身智能行业已经是领先水平。

竞争格局:从技术驱动到需求拉动

具身智能行业的竞争格局正在发生变化。2025 年之前,行业主要是技术驱动——谁的机器人能做出更炫的动作,谁就能吸引关注和投资。2026 年开始,需求拉动成为更重要的驱动力——制造业招工难、商业服务成本上升、老龄化社会护理需求爆发,这些真实的商业痛点正在拉动具身智能快速落地。

智元的策略是「AI 定义本体」——把超过 3/4 的研发资源投入到 AI 大模型研发中,定位自己为具身智能基础模型公司。这和特斯拉的「软件定义汽车」、苹果的「软件定义硬件」思路一致——硬件是载体,软件才是核心竞争力。

这种策略的优势是技术壁垒高、迭代速度快、规模效应强。一旦 AI 模型形成领先优势,就可以通过数据飞轮不断拉大差距。劣势是前期投入大、回报周期长,需要持续的资金支持和战略定力。

智元在 2025 年实现了 10.5 亿元收入,较 2024 年的 0.6 亿元大幅增长,成为中国最快实现收入超 10 亿元的机器人公司。这个数据证明了「AI 定义本体」策略的可行性。

写在最后

WITA 大模型的备案和 Omni 1.0 的发布,标志着具身智能交互技术从实验室走向商业化的关键节点。智元用「一体三智」架构、XYZ 曲线、358 宏图计划,给出了一个清晰的产业化路径。

具身智能的商业化不会一蹴而就。从「能动」到「会说」再到「能干活」,每一步都需要技术突破、数据积累、生态建设。但方向已经明确,路径已经清晰,剩下的就是执行和迭代。

智元的目标是 2030 年实现超 1000 亿营收。这个数字听起来很大,但如果具身智能真的能在制造、物流、服务等领域释放万亿级市场潜力,1000 亿只是开始。

参考来源

全国首个:智元 WITA(硅光动语)大模型完成备案 - IT之家 - 智元 WITA 大模型备案信息及 Omni 1.0 技术细节