京东开源JoyAI-VL-Interaction：实时视频视觉语言交互模型全栈开源

京东开源全球首个全栈开源的实时视频视觉语言交互模型JoyAI-VL-Interaction，8B规模，主打"边看边说"的流式交互。在58个真人盲评中，对豆包胜率77.6%，对Gemini胜率87.9%。

京东这次出手有点意思。

6月22日，京东官方正式宣布开源实时视频视觉语言交互模型 JoyAI-VL-Interaction，号称"全球首个全栈开源的 interaction 模型和系统"，并拿到了 vLLM-Omni 的 day-0 原生支持。这个项目其实在 6 月 17 日就被《科创板日报》提前爆过料，技术报告在开源社区和海外 AI 圈先发酵了几天，今天才算尘埃落定。

8B 参数规模，不大。但它要解决的问题，是当下绝大多数多模态大模型都没真正啃下来的：怎么让模型从"一问一答"变成"持续在场"。

JoyAI-VL-Interaction 实时视频交互演示

从轮次制到流式：一个被忽略的鸿沟

先说为什么这事值得写。

你今天打开豆包、Gemini 或者 GPT 的视频通话功能，看上去是"实时"了，但内核还是轮次制——你问一句，它答一句。摄像头开着只是个摆设，模型真正"看"画面的那一刻，是你按下说话按钮的瞬间。中间画面里发生了什么、烧水壶咕嘟响了、小孩从沙发上滑下来了，模型一概不知。

这是个挺大的产品缺陷，但因为大家都这么做，反而成了行业默认。

JoyAI-VL-Interaction 要打破的就是这个默认。按京东团队的说法，它让模型像人一样"在场"——持续观察视频流，自主判断什么时候开口，什么时候闭嘴。这不是把上下文窗口拉长就能解决的事，它涉及到一套新的训练范式：把"是否要响应"这件事，作为模型自身的能力训练进去。

这条路海外也有人走。上个月 Thinking Machines Lab（Mira Murati 那家）提出了"interaction model"的概念，思路高度一致——认为自主交互性应该作为模型的独立能力被规模化。两家几乎同时撞到同一个方向，说明"从轮次制走向交互式"这个时间点是成熟了。

区别在于，TML 目前只放了 research preview，京东直接把模型权重、训练数据、训练方法、完整可部署系统全部开源。这个力度，在国内大厂里算是相当激进的。

三个关键设计

看完技术报告，JoyAI-VL-Interaction 真正值得拆开讲的有三点。

主动判断，不是被动回答

传统视频理解模型的工作流是：用户发问 → 模型抓取当前帧 → 推理 → 回答。中间帧全部丢弃。

JoyAI-VL-Interaction 的工作流是：模型一直在看 → 内部持续做"是否需要响应"的决策 → 触发响应时才说话。这个"内部决策"是模型自己做的，不是外面套了个规则引擎。

这个差别在工程上影响极大。它意味着推理链路必须是流式的，KV cache 要持续累积又不能爆炸，响应触发的延迟要足够低。这也是为什么 vLLM-Omni 的 day-0 支持有意义——没有底层推理框架配合，这种模型根本跑不起来。

实时响应，不是事后总结

传统视频理解大多是"上传完整视频再分析"，这套范式做点播 OK，做直播完蛋。

安防预警，晚 3 秒可能就晚了；实时翻译，延迟超过 1 秒体验崩盘；直播解说，主播都进下一个话题了你还在分析上一个。JoyAI-VL-Interaction 面向的就是"正在发生"的视频流，画面变化的瞬间就能触发响应。

后台委托机制

这个设计我觉得是最聪明的一笔。

小模型有个天然矛盾：要实时观察，参数就不能太大；但很多任务（代码生成、复杂推理、工具调用）小模型搞不定。JoyAI-VL-Interaction 的解法是前后台分离——

前台 8B 模型一直在线，负责看、听、判断、对话
遇到复杂任务，委派给后台大模型或 Agent
后台处理期间，前台继续观察现场、维持交互
结果回来后，自然接回对话

这其实是把"持续在场"和"复杂能力"做了解耦。类比一下，前台是一个反应敏捷的助理，后台是专家团队，助理永远不会因为"我得想想"而离开你视线。

评测：对豆包胜率 77.6%，对 Gemini 胜率 87.9%

京东放出来的评测数据挺亮眼，但需要客观看。

他们选了 58 个真人盲评案例，覆盖六类场景：

监控预警（火情、摔倒、异常行为）
实时计数
实时翻译
时间感知
直播解说和引导
长程记忆

结果：

| 对比对象 | 总体胜率 | |---------|---------| | 豆包视频通话助手 | 77.6% | | Gemini 视频通话助手 | 87.9% |

监控预警场景，对两个基线都是 100% 胜率。

这个数字怎么看？我的判断是：在"视觉触发的主动响应"这条细分赛道，JoyAI-VL-Interaction 确实有优势，但不代表它整体超越豆包和 Gemini。

报告自己也很诚实地承认了局限性——8B 模型在通用知识、长尾场景、表达丰富度和稳定性上，比不过豆包和 Gemini 背后那些更大的模型。58 个案例的样本量也偏小，离系统性大规模评测还有距离。

但这个事情有意思的地方在于，它印证了一个判断：把交互性作为独立能力训练进模型，数据效率非常高。同样 8B 的规模，专门做交互训练能在特定场景把更大的通用模型按在地上摩擦。这跟之前 reasoning model 走出来的路径很像——专项能力涌现，不一定靠堆参数。

全栈开源到什么程度

这是 JoyAI-VL-Interaction 跟一般"开源"的差别。

京东这次放出来的是一整套系统：

模型权重
交互数据（训练用的）
训练方法（technical report 里有配方）
完整可部署系统，包括：
- ASR / TTS 模块（可替换）
- 可视化界面
- 长期记忆模块
- 后台模型接口
- vLLM 部署方案
- 外部工具接入

开发者可以接自己的语音服务、Agent、API、业务系统、前端，整个栈都是可拆可换的。这种做法比单纯放个权重要厚道得多——你拿到的不是个零件，是一台能直接开的车，再加上完整的改装手册。

适用场景官方列了一长串：

安防监控（火情/摔倒/异常行为提醒）
老人小孩看护
直播讲解、电商导购
操作指导（修家电、做饭这种）
AI 眼镜
无障碍辅助

这些场景的共同点是AI 需要持续在场，而不是被叫一次出现一次。京东自己的电商和物流业务里就有大量这类需求，开源这步棋既能借社区把生态做起来，也能拉动自家业务的智能化。

一些值得继续观察的点

几个我会盯着看的方向：

第一，社区跟进速度。全栈开源的好处是上手快，坏处是社区贡献门槛高——不光改模型，还得改系统。后续半年看看 GitHub 上的 fork 和二开数量，就知道开发者买不买账。

第二，长时序稳定性。报告里没怎么提"模型连续运行 8 小时会不会胡说"。这个对监控、看护场景是生死攸关的指标。

第三，端侧适配。8B 在云端不算大，但要塞进 AI 眼镜还是太重。如果后续有 1B-3B 的小版本出来，配合端云协同，那才是真正能跑进消费电子的形态。

第四，国产视频流芯片的配合。实时视频交互对编解码、内存带宽要求都很高，软硬协同才能压成本。

写在最后

过去两年大模型行业的主旋律是参数、知识、推理。但当一个 AI 助手真的要走进现实场景，决定它有用没用的，往往不是它知道多少，而是它能不能在该说话的时候出现。

JoyAI-VL-Interaction 走的是一条相对冷门但非常务实的路。它不试图做最聪明的模型，而是做最"在场"的模型。这种产品视角在国内大厂的开源工作里并不多见。

至于它能不能掀起 interaction model 这条赛道的浪——技术方向是对的，开源力度是足的，剩下的就看社区和市场买不买单了。

OpenAI Hub（openai-hub.com）会持续关注 JoyAI 系列的后续进展，对于已经在用各家闭源 VL 模型做实时交互的开发者来说，平台也支持 GPT、Claude、Gemini 等主流多模态模型的统一调用，可以拿来跟开源方案做横向对比。

参考来源

IT之家：京东开源实时视频视觉语言交互模型 JoyAI-VL-Interaction — 京东官方开源公告与三大技术突破详解
GitHub：京东开源代码仓库 — JoyAI-VL-Interaction 代码、权重与部署方案

京东开源JoyAI-VL-Interaction：让模型"边看边说"

从轮次制到流式：一个被忽略的鸿沟

三个关键设计

主动判断，不是被动回答

实时响应，不是事后总结

后台委托机制

评测：对豆包胜率 77.6%，对 Gemini 胜率 87.9%

全栈开源到什么程度

一些值得继续观察的点

写在最后

参考来源

相关推荐

免费API背后的杀招：AI中转站正在猎杀开发者

阿里 HappyHorse 1.1 来了：开源视频模型再上一档

豆包 Seed 2.1 现身 Arena 前端榜，跟 Opus 4.6 打成平手

联系我们