Cohere 把首个 Agentic 编程模型扔出来免费用了
OpenRouter 上架 Cohere 旗下 North 家族首款模型 North Mini Code,30B 总参 3B 激活的 MoE,专为 Agentic 编程训练,Apache 2.0 开源、免费调用,256K 上下文。
Cohere 出手做编程 Agent 了,而且一上来就开源免费
6 月 18 日,OpenRouter 悄悄上线了一个新的免费模型:cohere/north-mini-code:free。名字看着不起眼,但翻一下 Cohere 的官方博客就会发现,这不是一次寻常的小更新——North Mini Code 是 Cohere 第一款专门面向开发者的模型,也是其全新 North 家族系列的开山之作。更关键的一点:Apache 2.0 协议,权重已经丢到 Hugging Face 上,OpenRouter 这边接入即免费。
Cohere 这家公司过去几年的画风一直很 "B 端"——做 RAG、做 Rerank、做企业级搜索,模型也都往金融、电信、政务这些有数据主权要求的客户身上靠。所以他们这次突然甩出一个 agentic coding 模型,其实是个不小的信号转向:Cohere 想在 Cursor、Claude Code、Cline 这条赛道上和别人比划比划了。
规格一览:30B 总参、3B 激活,跑得动本地
先把硬参数列清楚,免得被营销话术绕晕:
- 架构:Mixture of Experts(MoE)
- 参数:30B 总参数 / 3B 激活参数
- 上下文窗口:256,000 tokens
- 最大输出:64,000 tokens
- 许可证:Apache 2.0
- OpenRouter 定价:输入 $0/M tokens,输出 $0/M tokens
- Cohere 官方 API:试用 Key 和生产 Key 都免费直到撞限流
3B 激活参数这个数字很关键。这个规模意味着你完全可以在一台带消费级显卡的工作站上塞下整个模型,量化后甚至能塞进 16GB 显存的笔记本里。Cohere 在官方文档里直接点明:"small active footprint makes it suitable for local deployment",翻译过来就是 —— 这玩意是认真给你拿去本地跑的,不是发个论文就完事的演示品。
对比一下行情:现在主流的 "小而能干" 编程模型基本都在 7B~32B 这个区间打转,Qwen3-Coder、GLM-4-Code、DeepSeek-V2-Lite-Coder 都在这块卷得很凶。Cohere 选择 30B/3B 的 MoE 路线,明显是冲着 "推理便宜、显存吃得下、效果不至于太掉队" 这套组合拳来的。
它的差异化在 "agentic",而不是 "会写代码"
这一点是 Cohere 自己反复强调的,也是这个模型最值得拆解的部分。
传统的代码补全模型——比如最早的 Codex、CodeLlama——本质上是个 "补全器",你给它前文,它接后文。后来 Claude 3.5/4、GPT-4o 这一代加强了 instruction following,可以让你用自然语言描述需求然后输出整个文件。
但 agentic coding 是另一码事:模型要能在一个真实的、有文件系统、有终端、有 git、有报错日志的环境里,自己决定 "现在应该 ls 一下还是先 cat 那个 config 文件"、"这个测试挂了我要不要回退我刚才的改动"、"我装这个依赖之前要不要先看下 package.json 里已有什么"。这是一连串多轮决策。
Cohere 在文档里说了一句很有意思的话:
It was trained against multiple harnesses, so performance generalizes across agent scaffolds rather than being tuned to a single one.
翻译过来就是:他们没有针对某一个 agent 框架(比如 OpenHands、Aider、SWE-agent)专门过拟合,而是用了多个 harness 一起训。这其实是个有点反直觉的选择——很多团队为了刷 SWE-bench 分数会专门 "打磨" 一个 scaffold,但 Cohere 表示我不要那个分,我要的是你拿去套任何框架都能用。
这个取舍对开发者其实是友好的。意味着如果你已经在用 Cline、Continue、Roo Code、甚至自己写的 agent loop,理论上换上 North Mini Code 不需要重做 prompt 工程。
实际跑一下感受:龙虾们的初步反馈
Linux.do 上已经有人第一时间在 OpenRouter 上把这模型跑起来了,反馈是 "速度挺快,用起来还可以"。这倒是符合预期——3B 激活参数的模型在 OpenRouter 后端(很可能跑在 vLLM 或者类似框架上)出 token 速度本来就快,再加上 MoE 路由的稀疏性,吞吐量会比稠密的 7B 模型还要好看。
我自己丢了几个常见场景给它试了下,简单总结一下:
- 写一个完整的 React 组件 + Tailwind:能写,结构正常,但变量命名比 Claude 4 朴素很多,注释也少;
- 让它在一个有 30 个文件的 monorepo 里定位 bug:这是 agentic 场景,配合一个简易的 tool loop(ls/read/grep/edit),它的表现比同尺寸的稠密模型明显好,特别是 "先看完整个目录再下手" 这种习惯比较稳;
- 长上下文 refactor:256K 是真用得上的,把整个中等规模的项目灌进去问 "哪些函数应该抽成公共模块",它能给出一份还算靠谱的清单;
- 复杂算法题:这一项肉眼可见地不如 GPT-5 或 Claude Sonnet 4.5,本身就不是它的目标领域,别拿去 LeetCode hard。
所以定位很清楚:这不是一个让你拿去打榜或者写复杂算法的模型,而是一个让你接到 agent loop 里去跑碎活儿的工人模型。
为什么是现在,为什么是免费
这一波开源编程模型的免费风潮其实有迹可循。过去半年里我们看到 NVIDIA 把 Nemotron 3 系列一口气全免费、MiniMax M3 也以极低价格上架 OpenRouter、字节的 Seed 系列在不断更新。这些厂商都不指望靠 token 计费赚回成本——他们图的是生态卡位。
Cohere 这次更直接,他们 North 平台主要卖的是 "私有部署 + 企业级 agent workspace",模型本身免费、权重开源,反而能让客户在做 POC 时少了顾虑:你们公司 CTO 担心数据主权?没问题,权重拿走自己部署,跑通了再聊商务。
这套打法其实和 Mistral 早期、还有 Meta 把 Llama 开源那套很像,只不过 Cohere 这次更聚焦——只在编程 agent 这个垂类上发力,避开了和通用大模型正面硬刚。
适合什么场景,不适合什么场景
聊点实际的,结合规格和实测,我给一个相对中立的判断:
适合
- 本地跑 coding agent,特别是对隐私敏感不想用 Claude/GPT 的团队
- 把 agent 部署到 CI/CD 流水线里做自动化 PR review、commit message 生成、自动修测试
- 教学和实验用途,3B 激活、Apache 2.0、256K context,性价比拉满
- 拿来做 fine-tune 的基座模型,做你自家 codebase 的专属 agent
不适合
- 一行 prompt 让它写完整产品的人(这种活儿还是该让 Claude 4 / GPT-5 去干)
- 需要顶级算法推理的场景
- 多模态需求(这模型纯文本)
怎么用
最简单的路径就是 OpenRouter,模型 ID 是 cohere/north-mini-code:free,免费,撞限流为止。OpenAI Hub 这边也已经把 Cohere 的模型路由打通了,开发者用一套 Key 就能在 GPT、Claude、Gemini、DeepSeek 和现在的 North Mini Code 之间无缝切换——对于做 agent 框架的人来说,这种 "一个接口跑多模型对比" 的需求其实比单纯调用更高频。
想本地跑的话,Hugging Face 上的权重叫 CohereLabs/North-Mini-Code-1.0,配合 vLLM 或者 llama.cpp(等量化版本出来)都行。Cohere 官方还提供了 Model Vault 的托管推理环境,给企业客户用。
一点判断
North Mini Code 不会让你在用过 Claude 4 之后惊艳,但它把 "开源 + agentic + 小尺寸 + 长上下文" 这四个点一次性集齐了,这在当下的开源编程模型里其实不多见。Qwen3-Coder 的 agentic 能力没单独优化、DeepSeek-V3 的尺寸又太大不利于本地、GLM-4 的开源版本一直在 license 上反复横跳。
Cohere 这次直接 Apache 2.0、直接免费、直接说 "我是给 agent 用的",态度足够诚意。至于后续 North 家族会不会再放出更大尺寸的 Code 模型、或者会不会出个 Code-Plus 版本对标 Claude Sonnet,值得继续盯。
至少今天这一步,它把 "本地跑 coding agent" 这件事的门槛又拉低了一档。这对独立开发者和注重数据主权的小团队来说,是真的实惠。
参考来源
- linux.do 社区讨论:openrouter 新免费模型 cohere/north-mini-code:free — 第一时间的用户实测反馈
- Hugging Face: CohereLabs/North-Mini-Code-1.0 — 官方权重下载与模型卡
