Agnes AI 宣布旗下文本、图像、视频三款模型 API 无限期免费开放，号称全球首个全模态免费 API。在 Agent 时代调用成本飙升的背景下，这是一次值得开发者认真评估的让利。

Agnes 把全模态 API 免费开了：文本图像视频一起送

6 月 1 日，Agnes AI 把旗下三款模型——文本模型 Agnes-2.0-Flash、图像模型 Agnes-Image-2.0-Flash、视频模型 Agnes-Video-2.0——的 API 同时无限期免费开放给全球开发者和创作者。

注意这里的关键词不是"免费"，而是"全模态"。过去几年免费 API 见过不少，但基本都是单点开放：要么免费让你跑文本，要么开放一段时间图像生成。把文本、图像、视频三类模型一次性、无限期免费打包推出，目前 Agnes 还是头一个。按官方说法，这是"全球首个全模态免费 API"。

这种打法很难说不是冲着 Agent 应用爆发期来的。

Agnes 全模态 API 开放发布主视觉

三款模型分别是什么水准

先说能力，再讨论它的策略意义。

Agnes-2.0-Flash：偏向工程化任务的文本模型

从官方放出的几个 Prompt 案例来看，Agnes-2.0-Flash 的定位不是"聊天助手"，而是更偏向结构化输出和复杂工程任务。

比如它给的一个典型 Prompt：

用 Three.js + MediaPipe Hands 做一个手势控制的 3D 粒子系统，单文件 HTML，粒子约 2.5 万个用自定义 ShaderMaterial，顶点着色器做闪烁（按时间+位置正弦波动 + 距离衰减点大小），片元着色器做圆形柔光辉光（exp(-d*4) 径向 glow + AdditiveBlending）……

这种 Prompt 里夹着 Shader 公式、混合模式、性能要求，模型不是给个伪代码就能交差的——得真的把可运行的单文件吐出来。Agnes 拿这个当 demo，意思就是想说明 Flash 系列不止于"快"，而是能把一个完整项目拆出来。

再比如另一个高德地图风格 App 的 UI 设计需求，要求包含放大缩小、起点终点输入、移动端竖屏、卫星实景底图、路网、定位点图标、缩放比例尺等等——典型的把 PRD、UI 描述、技术细节糅在一起的复合指令。这类任务考的是指令拆解 + 多目标对齐，而不是"语言流畅度"。

Agnes 披露 Agnes-2.0-Flash 已经进入 Claw-Eval 榜单，没说具体名次，但既然敢拉出来对标，至少不是榜尾选手。

Agnes-Image-2.0-Flash：图文排版能力意外能打

图像模型这边，最容易拿出来卷的是"赛博朋克雨夜东京"这种意境图。Agnes-Image-2.0-Flash 在官方案例里给的版本是“潮湿反光地面、粉紫青蓝霓虹、镜头向通道深处延伸、动漫渲染”，氛围细节确实到位，但这种图现在主流模型都能做，不是真正的差异点。

更值得关注的是信息图和图文排版。官方给了一个手机社交 App 的竖屏教程截图 Prompt：

状态栏要显示 14:30、5G、Wi-Fi、满格电池
主标题深棕色粗体"巧克力拿铁零失败教程"
英文副标题"Chocolate Latte Recipe"
浅米色背景、日系清新风
一张玻璃杯巧克力拿铁主图，要求分层呈现：底部巧克力酱、中部咖啡牛奶融合层、顶部奶泡、奶泡上撒巧克力碎
杯口装饰肉桂棒和薄荷

这个任务的难点不在"画得好不好看"，而在于指令遵循：标题、层级、状态栏图标、留白、装饰物，缺一个就不算完成。这种能力对公众号封面、短视频封面、课程海报、企业培训物料来说，刚需到不行。从官方放出的成图来看，Agnes-Image-2.0-Flash 在这块明显是有针对性优化过的。

该模型也进入了 Artificial Analysis 的 Image Editing Leaderboard。

Agnes-Image-2.0-Flash 生成的图文排版示例

Agnes-Video-2.0：往"叙事"方向卷

视频模型是这次开放里最值得看的部分。

官方给的一个 Prompt 是 16:9 横屏、15 秒的"龙之火焰"，结构化拆成了四段：

0–3 秒：俯拍古老山洞，岩浆缓慢流动如河流，洞壁布满钟乳石
3–7 秒：中景，巨龙缓缓睁眼，瞳孔金色竖瞳，鳞片如红宝石
7–11 秒：特写龙眼，瞳孔收缩，岩浆开始沸腾冒泡
11–15 秒：全景拉远，巨龙抬头咆哮，石块坠落，龙翼展开刮起狂风

再配上"巨龙特效、火焰物理、鳞片细节、电影级、4K 高清"这类强化词。

你能看出 Agnes-Video-2.0 想接的活，已经不是"让一张图动起来"那种短视频特效需求，而是短剧、广告、MV、剧情分镜这种连续叙事场景。它还原生支持音频生成——另一个英文 Prompt 里就标注了 [SOUNDS]: Corn rustle, breathing, insects，玉米地的沙沙声、呼吸声、昆虫声会一起合成出来。

该模型进入了 Artificial Analysis 的 Image to Video Leaderboard (With Audio)。

接入方式：三条路径

官方给了三种主要的接入方式，对应不同的开发者形态：

1. 直接调 API：登录 platform.agnes-ai.com，创建 Key，按文档调用即可，标准 OpenAI 兼容协议。

2. 在 Workbuddy 里包成 Skill：把 Agnes Image 2.0 或 Agnes Video 2.0 配置成 Skill，对话里就能像调用工具一样直接生图、生视频。这种方式适合非纯代码用户。

3. 在 Hermes 这类本地 Agent 里设为默认模型：关键配置就四项：

API Key
自定义模型提供商
接口地址：https://apihub.agnes-ai.com/v1
模型名：agnes-2.0-flash

对国内开发者来说，如果不想自己一个个去注册海外模型平台、配代理、管多套 Key，用 OpenAI Hub 这类聚合平台也能直接调到 Agnes 系列，一个 Key 同时拿 GPT、Claude、Gemini、DeepSeek，省去多套账号体系的麻烦。

为什么是现在免费？

这事得放到 Agent 时代的成本结构里看。

以前一个普通聊天请求，用户问一句、模型答一句，可能消耗几千 token 就结束了。但一个 Agent 工作流呢？规划、搜索、调用工具、写代码、检查结果、失败重试……看起来用户只发了一句话，背后已经跑了几十轮模型调用。调用成本不是被放大一倍，是被放大一两个数量级。

这就导致一个尴尬的现象：很多 AI 应用并不是没有需求，而是卡在早期试错阶段——

还没验证 PMF，调用账单先上来了
还没形成收入，模型成本先跑起来了
一个人想做 Agent、做多模态应用、做自动化流程，每一步都在烧钱

这种状态下，开发者很难放心做高频测试，更别说大胆试镜头、试风格、试版本。Agnes 这次免费开放，本质上是把使用门槛先砍掉，让更多人能把 Demo 跑通、工作流搭起来。

说白了，先圈用户、先建生态，再说商业化的事。这套打法不新鲜，DeepSeek、Qwen 都走过类似路径，但把文本、图像、视频三模态一起免费这一步，确实是过去两年没人敢迈的。

怎么看这件事

免费 API 不是没成本，是把成本前置变后置。Agnes 这次最值得开发者关注的，不是"省了多少钱"，而是它在赌全模态工作流是下一阶段的竞争主场。

过去两年，大模型竞争的关键词是“更强”——参数、跑分、发布会。但接下来的关键词会同时包含“更可用、更便宜、更容易接入”。尤其在全模态场景下，比拼的不再是单点能力，而是端到端工作流：

文本怎么规划任务
图像怎么生成素材
视频怎么完成动态表达
工具怎么串起来
失败怎么自动修复

这套链路里任何一环断掉，整个应用就跑不起来。Agnes 押注的就是“一个体系搞定三模态”能比“三个最强单点模型拼起来”更顺手。这判断对不对，还要看后面几个月开发者用脚投的票。

几个值得继续观察的点：

稳定性和并发：免费意味着流量大涨，Agnes 的基础设施能不能扛住，是它能否留住开发者的第一道门槛
限速策略："无限期免费"具体怎么个免费法，QPS、TPM、单日上限怎么设，决定了它对中重度用户友不友好
生态工具完善度：SDK、文档、社区、示例项目，这些非模型本身的东西会决定开发者愿不愿意把它“长进”自己的工作流
后续商业化：模型能力打分、跑分能进榜，不代表实际工作流里能跑通，免费期之后怎么收费同样关键

真正改变行业的，往往不是少数人用得起的尖端能力，而是足够多人能反复调用、持续试错、最终长进工作流里的基础能力。Agnes 这一步走得够大，剩下的就看它接得住接不住。

参考来源

今天起，无限期免费！全球首个全模态API开放，Top 10 AI Lab出手 - 知乎 — 量子位关于 Agnes AI 全模态 API 免费开放的完整报道
别再花钱调APIKey了！2026最全免费大模型合集 - 知乎 — 国内外免费大模型 API 接入方式整理参考