AI 快讯京东开源JoyAI-VL-Interaction:让模型"边看边说"
模型上新

京东开源JoyAI-VL-Interaction:让模型"边看边说"

2026-06-22T10:03:20.097Z
京东开源JoyAI-VL-Interaction:让模型"边看边说"

京东开源全球首个全栈开源的实时视频视觉语言交互模型JoyAI-VL-Interaction,8B规模,主打"边看边说"的流式交互。在58个真人盲评中,对豆包胜率77.6%,对Gemini胜率87.9%。

京东这次出手有点意思。

6月22日,京东官方正式宣布开源实时视频视觉语言交互模型 JoyAI-VL-Interaction,号称"全球首个全栈开源的 interaction 模型和系统",并拿到了 vLLM-Omni 的 day-0 原生支持。这个项目其实在 6 月 17 日就被《科创板日报》提前爆过料,技术报告在开源社区和海外 AI 圈先发酵了几天,今天才算尘埃落定。

8B 参数规模,不大。但它要解决的问题,是当下绝大多数多模态大模型都没真正啃下来的:怎么让模型从"一问一答"变成"持续在场"

JoyAI-VL-Interaction 实时视频交互演示

从轮次制到流式:一个被忽略的鸿沟

先说为什么这事值得写。

你今天打开豆包、Gemini 或者 GPT 的视频通话功能,看上去是"实时"了,但内核还是轮次制——你问一句,它答一句。摄像头开着只是个摆设,模型真正"看"画面的那一刻,是你按下说话按钮的瞬间。中间画面里发生了什么、烧水壶咕嘟响了、小孩从沙发上滑下来了,模型一概不知。

这是个挺大的产品缺陷,但因为大家都这么做,反而成了行业默认。

JoyAI-VL-Interaction 要打破的就是这个默认。按京东团队的说法,它让模型像人一样"在场"——持续观察视频流,自主判断什么时候开口,什么时候闭嘴。这不是把上下文窗口拉长就能解决的事,它涉及到一套新的训练范式:把"是否要响应"这件事,作为模型自身的能力训练进去。

这条路海外也有人走。上个月 Thinking Machines Lab(Mira Murati 那家)提出了"interaction model"的概念,思路高度一致——认为自主交互性应该作为模型的独立能力被规模化。两家几乎同时撞到同一个方向,说明"从轮次制走向交互式"这个时间点是成熟了。

区别在于,TML 目前只放了 research preview,京东直接把模型权重、训练数据、训练方法、完整可部署系统全部开源。这个力度,在国内大厂里算是相当激进的。

三个关键设计

看完技术报告,JoyAI-VL-Interaction 真正值得拆开讲的有三点。

主动判断,不是被动回答

传统视频理解模型的工作流是:用户发问 → 模型抓取当前帧 → 推理 → 回答。中间帧全部丢弃。

JoyAI-VL-Interaction 的工作流是:模型一直在看 → 内部持续做"是否需要响应"的决策 → 触发响应时才说话。这个"内部决策"是模型自己做的,不是外面套了个规则引擎。

这个差别在工程上影响极大。它意味着推理链路必须是流式的,KV cache 要持续累积又不能爆炸,响应触发的延迟要足够低。这也是为什么 vLLM-Omni 的 day-0 支持有意义——没有底层推理框架配合,这种模型根本跑不起来。

实时响应,不是事后总结

传统视频理解大多是"上传完整视频再分析",这套范式做点播 OK,做直播完蛋。

安防预警,晚 3 秒可能就晚了;实时翻译,延迟超过 1 秒体验崩盘;直播解说,主播都进下一个话题了你还在分析上一个。JoyAI-VL-Interaction 面向的就是"正在发生"的视频流,画面变化的瞬间就能触发响应。

后台委托机制

这个设计我觉得是最聪明的一笔。

小模型有个天然矛盾:要实时观察,参数就不能太大;但很多任务(代码生成、复杂推理、工具调用)小模型搞不定。JoyAI-VL-Interaction 的解法是前后台分离——

  • 前台 8B 模型一直在线,负责看、听、判断、对话
  • 遇到复杂任务,委派给后台大模型或 Agent
  • 后台处理期间,前台继续观察现场、维持交互
  • 结果回来后,自然接回对话

这其实是把"持续在场"和"复杂能力"做了解耦。类比一下,前台是一个反应敏捷的助理,后台是专家团队,助理永远不会因为"我得想想"而离开你视线。

评测:对豆包胜率 77.6%,对 Gemini 胜率 87.9%

京东放出来的评测数据挺亮眼,但需要客观看。

他们选了 58 个真人盲评案例,覆盖六类场景:

  • 监控预警(火情、摔倒、异常行为)
  • 实时计数
  • 实时翻译
  • 时间感知
  • 直播解说和引导
  • 长程记忆

结果:

| 对比对象 | 总体胜率 | |---------|---------| | 豆包视频通话助手 | 77.6% | | Gemini 视频通话助手 | 87.9% |

监控预警场景,对两个基线都是 100% 胜率

这个数字怎么看?我的判断是:在"视觉触发的主动响应"这条细分赛道,JoyAI-VL-Interaction 确实有优势,但不代表它整体超越豆包和 Gemini

报告自己也很诚实地承认了局限性——8B 模型在通用知识、长尾场景、表达丰富度和稳定性上,比不过豆包和 Gemini 背后那些更大的模型。58 个案例的样本量也偏小,离系统性大规模评测还有距离。

但这个事情有意思的地方在于,它印证了一个判断:把交互性作为独立能力训练进模型,数据效率非常高。同样 8B 的规模,专门做交互训练能在特定场景把更大的通用模型按在地上摩擦。这跟之前 reasoning model 走出来的路径很像——专项能力涌现,不一定靠堆参数。

全栈开源到什么程度

这是 JoyAI-VL-Interaction 跟一般"开源"的差别。

京东这次放出来的是一整套系统:

  • 模型权重
  • 交互数据(训练用的)
  • 训练方法(technical report 里有配方)
  • 完整可部署系统,包括:
    • ASR / TTS 模块(可替换)
    • 可视化界面
    • 长期记忆模块
    • 后台模型接口
    • vLLM 部署方案
    • 外部工具接入

开发者可以接自己的语音服务、Agent、API、业务系统、前端,整个栈都是可拆可换的。这种做法比单纯放个权重要厚道得多——你拿到的不是个零件,是一台能直接开的车,再加上完整的改装手册。

适用场景官方列了一长串:

  • 安防监控(火情/摔倒/异常行为提醒)
  • 老人小孩看护
  • 直播讲解、电商导购
  • 操作指导(修家电、做饭这种)
  • AI 眼镜
  • 无障碍辅助

这些场景的共同点是AI 需要持续在场,而不是被叫一次出现一次。京东自己的电商和物流业务里就有大量这类需求,开源这步棋既能借社区把生态做起来,也能拉动自家业务的智能化。

一些值得继续观察的点

几个我会盯着看的方向:

第一,社区跟进速度。全栈开源的好处是上手快,坏处是社区贡献门槛高——不光改模型,还得改系统。后续半年看看 GitHub 上的 fork 和二开数量,就知道开发者买不买账。

第二,长时序稳定性。报告里没怎么提"模型连续运行 8 小时会不会胡说"。这个对监控、看护场景是生死攸关的指标。

第三,端侧适配。8B 在云端不算大,但要塞进 AI 眼镜还是太重。如果后续有 1B-3B 的小版本出来,配合端云协同,那才是真正能跑进消费电子的形态。

第四,国产视频流芯片的配合。实时视频交互对编解码、内存带宽要求都很高,软硬协同才能压成本。

写在最后

过去两年大模型行业的主旋律是参数、知识、推理。但当一个 AI 助手真的要走进现实场景,决定它有用没用的,往往不是它知道多少,而是它能不能在该说话的时候出现

JoyAI-VL-Interaction 走的是一条相对冷门但非常务实的路。它不试图做最聪明的模型,而是做最"在场"的模型。这种产品视角在国内大厂的开源工作里并不多见。

至于它能不能掀起 interaction model 这条赛道的浪——技术方向是对的,开源力度是足的,剩下的就看社区和市场买不买单了。

OpenAI Hub(openai-hub.com)会持续关注 JoyAI 系列的后续进展,对于已经在用各家闭源 VL 模型做实时交互的开发者来说,平台也支持 GPT、Claude、Gemini 等主流多模态模型的统一调用,可以拿来跟开源方案做横向对比。

参考来源

相关推荐

查看全部

联系我们

我们通常在工作时间快速响应

扫码添加微信

专属客服:Hub 助手

微信号: