快手发布 Keye-VL-2.0-30B-A3B，首次在多模态场景应用 DeepSeek 稀疏注意力机制，支持 256K 超长上下文，长视频理解能力对标 Gemini 闭源模型，推理成本降低 50%。

快手 Keye 2.0 首次将 DSA 引入多模态，30B 参数打平 200B 开源模型

快手刚发布了新版多模态大模型 Keye-VL-2.0-30B-A3B，核心看点是把 DeepSeek 的稀疏注意力机制（DSA）搬到了多模态理解场景——这是业内首次。

这个动作不是为了炫技。DSA 解决的是长视频理解的算力瓶颈：传统 Full Attention 处理小时级视频时，计算量会指数级爆炸，而 Keye 2.0 通过稀疏注意力把 Prefill 成本直接砍掉 50%，Decode 阶段的成本曲线也变得极其平缓。结果是，30B 参数的模型在多项时序理解任务上，不仅吊打同级别开源基座，甚至跨级压制了 200B+ 的超大参数模型。

DSA 不是新东西，但用在多模态上是第一次

DSA 本身不新鲜。DeepSeek-V3 发布时就展示了稀疏注意力在纯文本场景的威力：通过让每个 token 只关注部分相关 token，而不是全局所有 token，大幅降低计算复杂度。但多模态场景更复杂——视频帧、图像 patch、文本 token 混在一起，时序信息、空间信息、语义信息交织，稀疏注意力怎么分配、哪些特征该保留、哪些该丢弃，都是新问题。

快手团队的做法是结合"时空统一编码"和"长时序特征聚合"。具体来说，他们先用 Slow-Fast 编码策略处理视频：对连续帧做 patch 级余弦相似度计算,相似度超过 95% 的判定为"快帧"（高帧数低分辨率），否则标记为"慢帧"（低帧数高分辨率）。慢帧保留高分辨率细节，快帧只分配慢帧 30% 的 token 预算。这样既保证了关键帧的信息密度，又控制了总 token 数。

然后在注意力层引入 DSA，让模型在处理超长序列时，能精准定位到真正重要的视觉特征和时序关系，而不是被大量冗余信息淹没。

Keye-VL-2.0 架构图，展示 DSA 在多模态场景的应用

长视频理解：从"看得见"到"看得懂"

业内做长视频理解的模型不少,但大多数卡在两个问题上：一是"长上下文衰减"——输入帧数越多，注意力越稀释，准确率反而下降；二是只能做表层感知，缺乏深度推理能力。

Keye 2.0 在 VideoMME V2 上彻底扭转了衰减趋势。当输入从 64 帧扩展到 512 帧时，模型的平均准确率不降反升，从 35.34% 飙到 42.44%，非线性得分（代表复杂逻辑深度）也从 18.54 涨到 24.19。这意味着模型不仅"看得见"更多帧，还真的"看得懂"了。

在 LongVideoBench 上，Keye 2.0 拿到 74.10 的高分，远超同级别开源模型，逼近顶级闭源巨头。快手团队测试了一段 8 分钟的"长白山云顶天宫雪雕重建"纪录片，要求模型做场景划分和叙事总结。结果模型不仅精准切分了 8 个核心场景，还准确识别了"百年不遇的冬雨导致雪体坍塌"这个关键转折点，甚至提取了画面中"振兴东北"的刻字，关联人物背景，总结出"冰雪项目承载着东北人振兴家乡的炽热情感"这种深层主题。

这不是简单的 OCR + 字幕拼接，而是真正的跨模态推理。

TimeLens 榜单：对标 Gemini 闭源模型

TimeLens 是业内公认最难的视频时序理解基准之一，要求模型不仅识别动作，还要给出精确的时间边界。Keye 2.0 在三个子任务上的表现：

Charades-TimeLens（日常动作时序解析）：mIoU 58.27，对标实测的 Gemini 3 Flash（61.19）和 Gemini 3.1 Pro（55.71）
ActivityNet-TimeLens（视频动作定位）：mIoU 58.54，全面超越官方数据 Gemini-2.5-Pro（58.1）以及实测的 Gemini 3 Flash（56.95）、Gemini 3.1 Pro（55.08）
QVHighlights-TimeLens（高光时刻提取）：mIoU 69.92，与顶尖闭源模型并驾齐驱，大幅超过实测的 Gemini 3 Flash（49.45）和 Gemini 3.1 Pro（46.09）

快手团队用一段制作陶杯的工艺流程视频做测试。从挖土、煅烧、水飞到修坯、配釉、陈茶，全程十几道工序，模型不仅全部识别，还把每个动作和视频时间轴做到了毫秒级对齐。这种细粒度的时序感知能力，在 30B 参数级别的开源模型里几乎看不到。

TimeLens 基准测试对比图，展示 Keye 2.0 与 Gemini 系列的性能对比

Agent 能力：从"观察者"到"行动者"

Keye 2.0 是 Keye 家族首次内建 Agent 协作机制的版本。这意味着模型不再只是被动回答问题，而是能主动规划任务、调用工具、执行操作。

在 Code Agent 方面，模型在 LivecodeBench v6 拿到 77.10 分，OJBench 39.20 分，不仅领先同级别参数模型，甚至超过了部分 200B 参数的开源基座。在更贴近真实业务的 SWE-bench Verified 任务中，模型跑通了 62.00 的基线成绩，具备了定位并修复代码 Issue 的能力。

Tool Agent 方面，模型在 TAU2-Bench 拿到 82.58 分，BFCL-V4 65.72 分，VITA-Bench 33.12 分。快手团队测试了一个复杂指令：查询指定标签门店、测算经纬度配送距离、筛选商品、创建酒店及配送订单。模型自主规划并按序调用了 get_delivery_store_info、longitude_latitude_to_distance、create_hotel_order 等十余次 API，全程没有崩溃或调用错误。

这种多步任务分解和工具调度能力，对于实际业务场景至关重要。快手内部已经在用 Keye 2.0 做智能剪辑、内容审核、搜索推荐等任务，Agent 能力让这些流程从"人工+AI 辅助"变成了"AI 主导+人工监督"。

技术细节：MOPD 解决多任务遗忘

多任务学习最大的坑是"灾难性遗忘"——模型学会新任务后，旧任务的性能会显著下降。快手团队用了一个叫 MOPD（多专家策略蒸馏/合并）的技术来解决这个问题。

核心思路是：先训练多个"同质模型"（相同网络结构，不同数据配比或随机种子）和"异质模型"（针对 OCR、数学等薄弱项单独强化的专家权重），然后通过分桶优势缩放（Bucket Advantage Scaling）方法，从 Token 级别对结构组织、教师表达、感知表征、推理运算进行细粒度建模，最后把这些权重融合起来。

这个方法的好处是，模型在学习新能力时，不会以牺牲通用底座能力为代价。Keye 2.0 最终定版在 Video、Agent、Math & Reasoning、STEM、Instruction Following 等维度都实现了全面爆发，没有明显短板。

快手团队还首次将 MOPD 引入重复崩溃治理。长序列生成时，模型容易陷入重复循环或输出崩溃，传统方法只能给一个模糊的负向反馈。MOPD 通过多粒度识别和精确定位，把负向反馈转化为可追溯的优化信号，显著提升了长序列生成的鲁棒性。

Post-training：Context-RL 压制幻觉

后训练阶段，快手团队设计了一套多模态强化学习体系，核心是 Context-RL 奖励机制。

传统 RLHF 在多模态场景容易出问题：模型可能会"脑补"一些视频里根本没有的内容，或者在多步推理时逻辑断层。Context-RL 的做法是强制模型严格锚定输入信息，不允许发散。具体来说，奖励函数会同时考虑规则奖励（通过正则和 AST 解析检查 JSON、Markdown 等结构）、生成式奖励（由外部大模型评估逻辑一致性）、模型奖励（来自 Keye-Reward 模型的细粒度偏好分）。

为了保证数据质量，团队设计了极为严格的筛选流程：先自动生成带步骤的解答，再由第二模型逐步打分分级，中档样本经人工精修后复审，高分样本直接入库。这种"高信噪比数据 + 高精度奖励"的组合，彻底打破了 RL 训练中的作弊和坍塌问题。

结果是，Keye 2.0 在视觉感知和多模态推理中的幻觉倾向被大幅压制，长程推演的决策稳定性实现了质的飞跃。

算力效能：推理成本降低 50%

引入 DSA 架构和系统级工程优化后，Keye 2.0 的长序列 Prefill 阶段成本降低了 50%。更重要的是，随着输入视频上下文拉长，传统 Full Attention 的 Decode 计算量会指数级暴增，而 Keye 2.0 基于 DSA 的 Decode 成本曲线极其平缓。

快手团队还做了一系列系统级优化：

ExtraIO 架构：将 IO 独立部署、按需扩容，消除视频解码和抽帧带来的 IO 瓶颈
ViT-LM 异构并行 + 两级负载均衡：破解长视频、变长序列下计算/显存的均衡难题
ViT 激活值零显存优化（Recompute/Offload）：进一步降低显存占用

这些优化让 30B 参数的 Keye 2.0 在推理效率上远超 200B+ 参数的开源模型，为超长视频的大规模落地提供了极具竞争力的低成本方案。

推理成本对比图，展示 Keye 2.0 与传统 Full Attention 模型在不同上下文长度下的成本曲线

业务落地：不只是 Benchmark 刷分

快手内部已经在三个维度全面应用 Keye 2.0：

1. 内容理解与推荐

Keye 2.0 的细粒度长视频感知和图文解析能力，被融入到生成式推荐、内容生态治理、商业化定向投放等核心链路。模型能像人类一样精准捕捉视频的"弦外之音"和时序逻辑，大幅提升了推荐系统的分发命中率，也在广告营销的精细化标签提取上取得了显著的商业收益转化。

2. 自动化生产流水线

"精准多模态理解 + Agent 自动化调度"的组合，打造了端到端的全自动闭环工作流。从海量视频库的智能检索、关键高光切片提取，到基于逻辑演进的自动化剪辑包装，再到契合爆款逻辑的营销文案生成，Keye 2.0 大幅降低了优质内容的生产门槛。

3. 安全治理

快手安全算法团队用 Keye 2.0 做内容审核，模型不仅能识别违规画面，还能理解上下文语境，判断是否存在隐晦的违规表达。这种深度理解能力，让审核准确率和召回率都有明显提升。

开源模型的新标杆

Keye 2.0 的成功，证明了一件事：在多模态理解这个赛道上，参数规模不是唯一变量，架构创新和工程优化同样重要。30B 参数打平 200B 开源模型，甚至在部分任务上逼近 Gemini 这种顶级闭源模型，靠的是 DSA 稀疏注意力、Slow-Fast 编码、MOPD 多任务融合、Context-RL 幻觉压制等一系列技术组合拳。

快手团队表示，Keye 2.0 的成功经验会继续向更大规模的模型迁移，目标是真正的原生多模态（Native Multimodal）和端到端深度融合。从目前的表现来看，这个方向值得期待。

Keye-VL-2.0-30B-A3B 现已开源，支持 256K 超长上下文，开发者可以直接用来做长视频理解、多模态推理、Agent 协作等任务。对于需要处理小时级视频、追求低成本高效能的场景，这个模型是个不错的选择。

参考来源

快手自研多模态大语言模型成功引入DSA - Linux.do - 社区讨论帖，包含模型核心特性概述
十分钟读懂DeepSeek-V3.2 稀疏注意力DSA - 知乎专栏 - DSA 技术原理解析
Keye-VL-2.0-30B-A3B - Hugging Face - 模型权重和技术文档
Keye GitHub 仓库 - 开源代码和使用指南