开源 MCP 插件 context-mode：AI 编程成本直降 98%

登顶 GitHub Hacker News 的 MCP 插件 context-mode 通过动态上下文管理，让 AI 编程的 Token 消耗降低 98%，模型记忆从 30 分钟拉长至 3 小时，已被微软、谷歌、字节、Cursor 等团队采用。

一个把 API 账单砍到 2% 的 MCP 插件

如果你最近还在为 Cursor 或 Claude Code 的账单发愁，或者刚把一段长任务跑到一半，发现模型把前面写过的接口忘得一干二净——那大概率你已经听过 context-mode 这个名字。

这款由一支跨国小团队开发的开源 MCP 插件，过去一个月先是冲上 GitHub Hacker News 榜首，到本周（截至 2026 年 6 月 9 日）GitHub Star 数已经突破 1.5 万，接入的开发者超过 24.3 万人。团队给出的数据相当激进：在 AI 编程场景下，context-mode 能把 Token 消耗降低 98%，等于把成本直接拉到原本的 2%；同时把大模型的「有效记忆时长」从约 30 分钟拉到 3 小时。

这两个数字单独看都不算新鲜，市面上做上下文压缩的工具不少。但能把两件事同时压进一个 MCP 插件、并且做到 15 个平台的适配，目前还是个不多见的工程化成果。

context-mode 项目在 GitHub 上的 Star 增长曲线

它到底解决了什么问题

要理解 context-mode 为什么会火，得先回到 Vibe Coding 时代开发者的日常。

过去一年里，「龙虾（Lobster）」这类全自动 AI 编程 Agent 框架的普及，把开发门槛拉到了一个非常低的位置——你描述一段需求，Agent 自动拆任务、写代码、跑测试、提 PR。听起来很爽，直到你看到月底的 API 账单。

问题出在两个地方：

Token 黑洞：自动化 Agent 每跑一轮，都要把整个对话历史、工具调用结果、相关文件内容塞进上下文。一个中型项目跑下来，单次任务消耗几百万 Token 是常态。Claude Sonnet、GPT 系列顶尖模型的 Token 单价虽然在降，但被这么吞，包月套餐撑不过几天就告罄。
模型失忆：上下文窗口再大也有上限，超过 100K 后注意力衰减明显。开发者经常遇到的场景是：上午让模型重构了 auth 模块，下午让它接一个新接口，模型已经记不清上午定义的中间件签名，把整个项目改出一堆错位的类型。

context-mode 的思路并不是把上下文窗口做大，而是反过来——让进入窗口的内容尽可能精炼且相关。它在 Agent 和模型之间塞了一层「上下文路由」，把项目里的代码、对话、工具调用结果做向量索引和语义切片，每次只把跟当前任务真正相关的片段喂给模型。

这是 MCP（Model Context Protocol）协议的典型用法。Anthropic 去年放出 MCP 时，社区第一反应是「又一个工具调用规范」，但 context-mode 这种插件证明了 MCP 真正的价值其实在「上下文层」：它给了第三方一个标准接口，去接管模型看见什么、看见多少。

技术上做了什么

从开源仓库的实现看，context-mode 的核心模块大致分三层：

1. 语义切片与索引层

不是简单按文件或函数切，而是结合 AST 结构和调用关系生成「语义单元」。一个类的方法定义、被调用的位置、相关的类型声明会被绑成一个最小可理解单元。这样在召回时，模型拿到的不是孤立的一段代码，而是带上下游关系的「片段包」。

2. 动态记忆压缩

这是「记忆从 30 分钟拉到 3 小时」的关键。context-mode 对对话历史做分层摘要：最近几轮保留原文，再往前的内容按重要性逐级压缩成结构化笔记，最久远的内容只保留「决策摘要」（比如「auth 模块用 JWT，过期时间 2 小时」）。当模型问到相关问题时，再从更细的层级把内容召回。

这种做法和 MemGPT 当年的思路有点像，但 context-mode 把它做成了 MCP 插件，意味着任何兼容 MCP 的客户端——Claude Desktop、Cursor、Cline、Continue——都能直接用，不用改 Agent 框架。

3. 上下文预算调度器

开发者可以为每个项目设置 Token 预算，比如「单次任务不超过 50K」。调度器会根据当前任务的复杂度，动态调整召回片段的数量和压缩等级。这一层是「成本降低 98%」最直接的来源——大部分时候，模型其实不需要看完整个项目，只是 Agent 框架没做好筛选。

团队：一支 4 国异步协作的小队

context-mode 背后是一支非常典型的开源「轻团队」。核心成员分布在土耳其、法国等 4 个国家，全靠 GitHub Issue 和 PR 异步协作，没有正式办公室。

创始人 Mert Köseoğlu 是土耳其人，做过 OpenAI 的技术顾问，十多年全栈和系统架构经验，之前在 Countly、Planhat、Jotform 这几家 SaaS 公司做高级工程师。他自己在 Hacker News 上发的项目介绍里写了一句很直白的话：「我受够了每个月几千美元的 Claude 账单。」

另一位核心开发者 孙逸诚 是团队里的中国面孔，目前大二在读，负责多平台适配。他之前独立做过 Temporal-RAG（时序数据检索增强）引擎，拿过知乎全球 A2A 黑客松银奖。强基计划入围、数理省排前 18 名——典型的少年极客路径。

这种团队结构本身就挺有时代感：四个时区、五六个人，做出一个被微软、谷歌、Meta、字节跳动和 Cursor 研发团队都在用的基础设施级插件。

真实效果怎么样

98% 这个数字听上去太漂亮，难免让人怀疑是不是挑了极端场景。我翻了一下 GitHub Issue 和 Reddit 上的反馈，社区的实测大致落在这个区间：

中小型项目（1-5 万行代码），日常 AI 编程的 Token 消耗下降在 85%-95% 之间，符合宣传量级；
大型 monorepo（10 万行以上），下降幅度在 70%-90%，但首次建立索引会比较慢；
极少数纯探索性任务（比如让 AI 自由发挥写一个新模块），节省效果不明显，甚至略增——因为多了一层路由开销。

「记忆从 30 分钟提升到 3 小时」这个说法更模糊一点，因为不同模型、不同任务的「失忆点」本来就不一样。但从社区案例看，跑长任务（比如全项目重构、多文件联动调试）时，模型确实能更长时间保持一致性，这一点共识度比较高。

它会变成下一个基础设施吗

值得注意的是，context-mode 不是孤例。前段时间登上 GitHub Trending 榜首的 Claude Context、以及围绕 Context7、sequential-thinking 这类 MCP 工具的生态，都在解决同一个问题——让模型用更少的 Token 看见更对的内容。

这件事的工程意义被低估了。过去两年大家都在卷模型本身：参数更多、窗口更大、推理更强。但实际生产中，决定 AI 编程能不能跑下去的，往往是「上下文工程」这一层。模型再强，喂错了内容也白搭；模型不那么强，但喂得精准，效果反而更好。

context-mode 把这一层抽象成了协议化的插件，意味着它有机会成为 AI 编程工具链里的标准件——就像前端的 webpack、后端的 nginx，平时不显眼，但少了它整个系统都跑不顺。

顺带一提，国内开发者如果要尝试 context-mode，搭配的模型这一侧也别忽视：context-mode 节省的是 Token 数量，但 Token 单价和访问稳定性同样影响最终成本。OpenAI Hub 这类聚合平台已经把 GPT、Claude、Gemini、DeepSeek 等模型统一在一个 Key 后面、兼容 OpenAI 格式、国内直连，配合 context-mode 用，刚好把「省 Token」和「省调度成本」两件事一起做了。

接下来要看什么

短期看，context-mode 团队在路线图里提到了几件事：

把语义索引从 Tree-sitter 切换到自研增量解析器，进一步降低首次建库时间；
支持团队级共享上下文，多人协作时不重复构建索引；
推出托管版本，给不想自己跑向量数据库的小团队用。

长期看，更有意思的问题是：当上下文工程被标准化、被插件化，模型厂商会怎么应对？ 如果一个第三方插件就能把 Token 消耗降 98%，那大模型公司原本依赖的「按量计费」逻辑就会面临压力。Anthropic 自己推 MCP 的时候，可能也没完全预料到生态会朝这个方向长。

这是个挺值得看的故事。一支没几个人的小队，靠一个协议、一层抽象，把整个 AI 编程的成本结构改写了。下一步看谁先反应过来。

参考来源

Awesome-MCP-ZH 资源精选 - GitHub：中文 MCP 生态资源汇总，可以看到 context-mode 之外还有哪些上下文相关插件
Claude Context 开源项目 - 知乎：同类思路项目的技术解析，对理解动态上下文管理有帮助

开源插件 context-mode 把 AI 编程成本砍到 2%

一个把 API 账单砍到 2% 的 MCP 插件

它到底解决了什么问题

技术上做了什么

团队：一支 4 国异步协作的小队

真实效果怎么样

它会变成下一个基础设施吗

接下来要看什么

参考来源

相关推荐

英特尔砍掉BigDL：开源AI框架6月底归档

长安甩出"天枢领航"：把VLM塞进辅助驾驶，启源Q06九月上市

华为发了个 DevEco Code，把鸿蒙开发塞进了 Agent

联系我们