Agnes 把全模态 API 免费开了:文本图像视频一起送

模型上新

Agnes AI 宣布旗下文本、图像、视频三款模型 API 无限期免费开放,号称全球首个全模态免费 API。在 Agent 时代调用成本飙升的背景下,这是一次值得开发者认真评估的让利。

Agnes 把全模态 API 免费开了:文本图像视频一起送

6 月 1 日,Agnes AI 把旗下三款模型——文本模型 Agnes-2.0-Flash、图像模型 Agnes-Image-2.0-Flash、视频模型 Agnes-Video-2.0——的 API 同时无限期免费开放给全球开发者和创作者。

注意这里的关键词不是"免费",而是"全模态"。过去几年免费 API 见过不少,但基本都是单点开放:要么免费让你跑文本,要么开放一段时间图像生成。把文本、图像、视频三类模型一次性、无限期免费打包推出,目前 Agnes 还是头一个。按官方说法,这是"全球首个全模态免费 API"。

这种打法很难说不是冲着 Agent 应用爆发期来的。

Agnes 全模态 API 开放发布主视觉

三款模型分别是什么水准

先说能力,再讨论它的策略意义。

Agnes-2.0-Flash:偏向工程化任务的文本模型

从官方放出的几个 Prompt 案例来看,Agnes-2.0-Flash 的定位不是"聊天助手",而是更偏向结构化输出和复杂工程任务

比如它给的一个典型 Prompt:

用 Three.js + MediaPipe Hands 做一个手势控制的 3D 粒子系统,单文件 HTML,粒子约 2.5 万个用自定义 ShaderMaterial,顶点着色器做闪烁(按时间+位置正弦波动 + 距离衰减点大小),片元着色器做圆形柔光辉光(exp(-d*4) 径向 glow + AdditiveBlending)……

这种 Prompt 里夹着 Shader 公式、混合模式、性能要求,模型不是给个伪代码就能交差的——得真的把可运行的单文件吐出来。Agnes 拿这个当 demo,意思就是想说明 Flash 系列不止于"快",而是能把一个完整项目拆出来。

再比如另一个高德地图风格 App 的 UI 设计需求,要求包含放大缩小、起点终点输入、移动端竖屏、卫星实景底图、路网、定位点图标、缩放比例尺等等——典型的把 PRD、UI 描述、技术细节糅在一起的复合指令。这类任务考的是指令拆解 + 多目标对齐,而不是"语言流畅度"。

Agnes 披露 Agnes-2.0-Flash 已经进入 Claw-Eval 榜单,没说具体名次,但既然敢拉出来对标,至少不是榜尾选手。

Agnes-Image-2.0-Flash:图文排版能力意外能打

图像模型这边,最容易拿出来卷的是"赛博朋克雨夜东京"这种意境图。Agnes-Image-2.0-Flash 在官方案例里给的版本是“潮湿反光地面、粉紫青蓝霓虹、镜头向通道深处延伸、动漫渲染”,氛围细节确实到位,但这种图现在主流模型都能做,不是真正的差异点。

更值得关注的是信息图和图文排版。官方给了一个手机社交 App 的竖屏教程截图 Prompt:

  • 状态栏要显示 14:30、5G、Wi-Fi、满格电池
  • 主标题深棕色粗体"巧克力拿铁 零失败教程"
  • 英文副标题"Chocolate Latte Recipe"
  • 浅米色背景、日系清新风
  • 一张玻璃杯巧克力拿铁主图,要求分层呈现:底部巧克力酱、中部咖啡牛奶融合层、顶部奶泡、奶泡上撒巧克力碎
  • 杯口装饰肉桂棒和薄荷

这个任务的难点不在"画得好不好看",而在于指令遵循:标题、层级、状态栏图标、留白、装饰物,缺一个就不算完成。这种能力对公众号封面、短视频封面、课程海报、企业培训物料来说,刚需到不行。从官方放出的成图来看,Agnes-Image-2.0-Flash 在这块明显是有针对性优化过的。

该模型也进入了 Artificial Analysis 的 Image Editing Leaderboard。

Agnes-Image-2.0-Flash 生成的图文排版示例

Agnes-Video-2.0:往"叙事"方向卷

视频模型是这次开放里最值得看的部分。

官方给的一个 Prompt 是 16:9 横屏、15 秒的"龙之火焰",结构化拆成了四段:

  • 0–3 秒:俯拍古老山洞,岩浆缓慢流动如河流,洞壁布满钟乳石
  • 3–7 秒:中景,巨龙缓缓睁眼,瞳孔金色竖瞳,鳞片如红宝石
  • 7–11 秒:特写龙眼,瞳孔收缩,岩浆开始沸腾冒泡
  • 11–15 秒:全景拉远,巨龙抬头咆哮,石块坠落,龙翼展开刮起狂风

再配上"巨龙特效、火焰物理、鳞片细节、电影级、4K 高清"这类强化词。

你能看出 Agnes-Video-2.0 想接的活,已经不是"让一张图动起来"那种短视频特效需求,而是短剧、广告、MV、剧情分镜这种连续叙事场景。它还原生支持音频生成——另一个英文 Prompt 里就标注了 [SOUNDS]: Corn rustle, breathing, insects,玉米地的沙沙声、呼吸声、昆虫声会一起合成出来。

该模型进入了 Artificial Analysis 的 Image to Video Leaderboard (With Audio)。

接入方式:三条路径

官方给了三种主要的接入方式,对应不同的开发者形态:

1. 直接调 API:登录 platform.agnes-ai.com,创建 Key,按文档调用即可,标准 OpenAI 兼容协议。

2. 在 Workbuddy 里包成 Skill:把 Agnes Image 2.0 或 Agnes Video 2.0 配置成 Skill,对话里就能像调用工具一样直接生图、生视频。这种方式适合非纯代码用户。

3. 在 Hermes 这类本地 Agent 里设为默认模型:关键配置就四项:

  • API Key
  • 自定义模型提供商
  • 接口地址:https://apihub.agnes-ai.com/v1
  • 模型名:agnes-2.0-flash

对国内开发者来说,如果不想自己一个个去注册海外模型平台、配代理、管多套 Key,用 OpenAI Hub 这类聚合平台也能直接调到 Agnes 系列,一个 Key 同时拿 GPT、Claude、Gemini、DeepSeek,省去多套账号体系的麻烦。

为什么是现在免费?

这事得放到 Agent 时代的成本结构里看。

以前一个普通聊天请求,用户问一句、模型答一句,可能消耗几千 token 就结束了。但一个 Agent 工作流呢?规划、搜索、调用工具、写代码、检查结果、失败重试……看起来用户只发了一句话,背后已经跑了几十轮模型调用。调用成本不是被放大一倍,是被放大一两个数量级。

这就导致一个尴尬的现象:很多 AI 应用并不是没有需求,而是卡在早期试错阶段——

  • 还没验证 PMF,调用账单先上来了
  • 还没形成收入,模型成本先跑起来了
  • 一个人想做 Agent、做多模态应用、做自动化流程,每一步都在烧钱

这种状态下,开发者很难放心做高频测试,更别说大胆试镜头、试风格、试版本。Agnes 这次免费开放,本质上是把使用门槛先砍掉,让更多人能把 Demo 跑通、工作流搭起来。

说白了,先圈用户、先建生态,再说商业化的事。这套打法不新鲜,DeepSeek、Qwen 都走过类似路径,但把文本、图像、视频三模态一起免费这一步,确实是过去两年没人敢迈的。

怎么看这件事

免费 API 不是没成本,是把成本前置变后置。Agnes 这次最值得开发者关注的,不是"省了多少钱",而是它在赌全模态工作流是下一阶段的竞争主场。

过去两年,大模型竞争的关键词是“更强”——参数、跑分、发布会。但接下来的关键词会同时包含“更可用、更便宜、更容易接入”。尤其在全模态场景下,比拼的不再是单点能力,而是端到端工作流:

  • 文本怎么规划任务
  • 图像怎么生成素材
  • 视频怎么完成动态表达
  • 工具怎么串起来
  • 失败怎么自动修复

这套链路里任何一环断掉,整个应用就跑不起来。Agnes 押注的就是“一个体系搞定三模态”能比“三个最强单点模型拼起来”更顺手。这判断对不对,还要看后面几个月开发者用脚投的票。

几个值得继续观察的点:

  • 稳定性和并发:免费意味着流量大涨,Agnes 的基础设施能不能扛住,是它能否留住开发者的第一道门槛
  • 限速策略:"无限期免费"具体怎么个免费法,QPS、TPM、单日上限怎么设,决定了它对中重度用户友不友好
  • 生态工具完善度:SDK、文档、社区、示例项目,这些非模型本身的东西会决定开发者愿不愿意把它“长进”自己的工作流
  • 后续商业化:模型能力打分、跑分能进榜,不代表实际工作流里能跑通,免费期之后怎么收费同样关键

真正改变行业的,往往不是少数人用得起的尖端能力,而是足够多人能反复调用、持续试错、最终长进工作流里的基础能力。Agnes 这一步走得够大,剩下的就看它接得住接不住。

参考来源