AI 快讯Kimi K2.7 Code 高速版上线,吐字速度飙到 200 TPS
产品更新

Kimi K2.7 Code 高速版上线,吐字速度飙到 200 TPS

2026-06-15T12:04:34.408Z
Kimi K2.7 Code 高速版上线,吐字速度飙到 200 TPS

Moonshot 在 Kimi 开放平台悄悄上架了 kimi-k2.7-code-highspeed,输出速度比标准版快 3-4 倍,实测 150-200 tokens/s。对长期被推理延迟卡住的 Coding Agent 场景来说,这次提速比模型本身的能力提升更有感。

Moonshot 又在 Kimi 开放平台塞了个新东西进来。6 月中旬,开发者社区 linux.do 上有人发现,platform.kimi.com 多出了一个叫 kimi-k2.7-code-highspeed 的模型 ID,跑下来吐字速度在 150-200 tokens/s 之间,比标准版的 kimi-k2.7-code 快了整整 3 到 4 倍。

这事官方没怎么宣传,promo 页面里只是顺手挂了一行。但对实际在用 Kimi 做 Coding Agent 的人来说,这个更新的体感比上个月 K2.7 Code 首发本身还重。

不是新模型,是新通道

先把概念厘清。kimi-k2.7-code-highspeed 并不是又训练了一个模型,它本质上是 K2.7 Code 这个 MoE 基座的高速推理通道——和去年九月份 Moonshot 给 K2-0905 上线 kimi-k2-turbo-preview 是同一个套路。模型权重不变,变的是底层的推理栈:更激进的投机解码、更高效的 KV cache 复用、更深的 batch 调度优化,再加上专门腾出来的高带宽 GPU 资源。

按照 Moonshot 之前给 K2 Turbo 公布的口径,那一版的输出速度是 60-100 token/s。这次 K2.7 Code 高速版直接把上限抬到 200 token/s,几乎翻倍。说明从 0905 到现在的大半年时间里,他们在推理侧确实下了不少功夫,不是简单调参就能做出来的。

实测层面,linux.do 上跑过的几位反馈都比较一致:短上下文场景能稳定吃满 180 TPS 以上,长上下文(128K 以上)会掉到 130-150 TPS,但相比标准版那种 40-50 TPS 慢慢往外挤的状态,已经是质变。

Kimi K2.7 Code 高速版与标准版输出速度对比示意图

为什么 Coding 模型特别需要这个速度

这里得停下来讲一个很多非开发者用户感受不到的痛点:Coding Agent 对单次输出的延迟极度敏感。

你让 ChatGPT 写一首诗,吐字慢一点没关系,反正读完就完事了。但 Coding Agent 不一样,它是一个工具调用循环:模型生成代码 → 工具执行 → 返回结果 → 模型再生成下一步。Claude Code、Cursor Agent、Cline 这些工具在跑稍微复杂一点的任务时,单次会话可能涉及十几次甚至几十次模型往返。每次往返如果模型本身吐字要 30 秒,整个任务就拖成 10 分钟以上。

Kimi K2.7 Code 标称 256K 上下文、300 步工具调用,这些指标在 Agent 场景下确实有用,但前提是速度要跟得上。原版那个 40-50 TPS 的速度,跑一个稍微大一点的 refactor 任务就得等到怀疑人生。Anthropic 自己 Claude Sonnet 现在能跑到 80-100 TPS,Gemini 3 Flash 更夸张能上 250 TPS,Kimi 之前在这块确实落后一截。

这次直接把 K2.7 Code 拉到 200 TPS 区间,等于把基座最强、价格最便宜的国产 Coding 模型变成速度也不掉队的选项。这一步对于想做国内闭环、又不想在 Agent 体验上妥协的团队来说,分量很重。

K2.7 Code 这个模型本身值得看一眼

既然提到高速版,顺便回头看下 K2.7 Code 本体的定位。Moonshot 把这个模型称作"当前最强 Coding 模型",输出价格 27 元/百万 token。这个价位在国内属于中等,但比 Claude Sonnet 4.5 便宜了一个量级以上。

从架构上看,K2 系列一直延续的是混合专家(MoE)路线,总参数一万亿、激活参数 320 亿。K2.7 Code 是在 K2.6 的基础上,专门针对真实软件工程任务做了强化训练——SWE-bench Verified 这种基准是它的主战场。

几个关键能力:

  • 256K 上下文窗口,跟 K2.6、K2.5 一致。对于读整个项目的 Agent 工作流来说够用,但和 Gemini 那种 1M+ 窗口比还是有差距。
  • Token Enforcer,保证 tool call 的 JSON 输出 100% 格式正确。这点很实用,做过 Function Calling 的人都知道格式出错有多让人崩溃。
  • 完全兼容 Anthropic API,可以直接对接 Claude Code,加上 WebSearch Tool 支持。这是 Moonshot 一贯的策略——降低迁移成本,让 Claude 用户能无痛切过来。
  • 自动 Context Caching,重复 prompt 部分会自动走缓存,命中价格只要 0.16 美元/百万 token(对应国内人民币更低)。Agent 场景里 system prompt 动辄几千 token,这个缓存能省不少。

高速版的代价:精度和价格

按照惯例,高速版通常不是免费的午餐。Moonshot 没明确说 highspeed 版本是否在精度上做了 trade-off,但参考业界经验,能把速度推到 3-4 倍,大概率用了下面几种手段中的一部分:

  1. 更激进的投机解码(Speculative Decoding):用一个小的 draft model 先生成候选 token,大模型验证。理论上精度无损,但 draft 命中率会影响速度上限。
  2. 降低数值精度:把部分计算从 BF16 降到 FP8 甚至 INT8。这种做法在长上下文下偶尔会出现行为偏差。
  3. 稀疏注意力优化:MoE 模型本来就在专家路由上有空间,更激进的稀疏化会牺牲少量长程依赖能力。
  4. 专用集群:单纯堆硬件、用更新的 GPU(比如 H200 / B200),这种是纯加钱不掉精度。

社区目前还没看到 K2.7 Code 高速版的 benchmark 对比,谁实测了的话强烈建议跑一遍 SWE-bench 看看两个版本的得分差距。如果差距在 1-2 个百分点以内,那这个高速版就是无脑选;如果差超过 5 个百分点,就得看任务类型再决定。

价格上,Moonshot 之前 K2 Turbo 的高速版定价是标准版的 4 倍左右。这次 K2.7 Code 高速版具体怎么定价,开放平台目前还在限时促销,正式价格估计要等促销结束后才能完全明朗。即便按照 4 倍价格算,27 × 4 = 108 元/百万 token,依然比 Claude Sonnet 便宜。

国产 Coding 模型的速度战

把镜头拉远一点看,这次 Kimi 推高速版是一个信号:国产模型的竞争已经从单纯比模型能力,转向比工程化交付能力。

过去一年,DeepSeek V3.2、通义 Qwen3-Coder、智谱 GLM-Coder、阶跃 Step-Code 都在 Coding 这条赛道上有动作。但大部分模型在 API 速度上和闭源头部还有差距。这次 Kimi K2.7 Code 高速版直接把吐字速度拉到 200 TPS,相当于在"模型够强 + 价格够便宜 + 速度够快"三个维度同时摸到了一个新的平衡点。

对开发者的实际影响是:

  • 跑 Claude Code 这类需要 Anthropic API 兼容的 Agent 工具时,K2.7 Code 高速版可以无痛替换,体验差距进一步缩小。
  • 自建 Coding Agent 的团队,可以把 K2.7 Code 高速版作为主力推理路径,把 Claude / Gemini 作为兜底,整体成本能压下来一大截。
  • 长程 Agent 任务(300 步以上工具调用)变得真正可用——之前在 40 TPS 速度下,300 步基本意味着要等 1 小时以上,现在可能压缩到 15-20 分钟。

接入和使用建议

Kimi 这边的接入方式没有什么变化,标准的 OpenAI 兼容格式,模型名换成 kimi-k2.7-code-highspeed 即可。如果你之前已经在用 K2.6 或 K2.7 Code 标准版,几乎是改一行字符串的事情。

对于多模型混用的场景,OpenAI Hub 这类聚合平台也已经同步支持了 Kimi 系列模型,包括这次的高速版。一个 Key 同时调 GPT、Claude、Gemini、DeepSeek、Kimi,国内直连,对需要做模型 A/B 测试或者 fallback 策略的开发者比较省事——不用挨个去申请额度、做合规、过 KYC。

实战上几点建议:

  1. 先用标准版跑 benchmark,再切高速版。手头任务的 pass rate 是基准,高速版如果掉点超过容忍范围,可以混用——长任务规划用标准版,代码生成执行用高速版。
  2. 打开 Context Caching。Agent 的 system prompt 通常很长且固定,缓存命中后单价能降到 1/30,叠加高速版的速度优势性价比拉满。
  3. 配合 Token Enforcer 用 Function Calling。Coding Agent 的 tool call 出错率直接决定整个任务能不能跑完,Kimi 在这块做了硬性保障,比单纯靠 prompt 约束格式靠谱多了。
  4. 256K 上下文别滥用。长上下文下高速版的速度会下降,而且 attention 的有效信息密度也会稀释。一般任务用 32K-64K 足够,真要塞整个 repo 再考虑全开。

一点判断

Moonshot 这次更新没什么发布会、没什么大张旗鼓的官宣,就是把模型挂到开放平台上让开发者自己发现。从 K2 系列一路看下来,他们的策略一直很清晰:模型够好、价格够狠、API 体验对齐 Anthropic、Coding 是主战场。

K2.7 Code 高速版不是革命性的更新,但它把"国产 Coding 模型够用"这件事从口号变成了可量化的现实。150-200 TPS 的吐字速度,配上 256K 上下文、Anthropic API 兼容、自动缓存这些工程化能力,已经足以让一个严肃的 Coding Agent 团队在不依赖海外模型的情况下,把生产环境跑起来。

如果你之前因为速度问题没把 Kimi 列入主力候选,这次值得重新评估一下。

参考来源

相关推荐

查看全部

联系我们

我们通常在工作时间快速响应

扫码添加微信

专属客服:Hub 助手

微信号: