model-forensics 开源：检测 AI 模型 API 供应商是否造假的 CLI 工具

开发者 sup194 开源了 CLI 工具 model-forensics，通过异常筛查和指纹比对检测 API 中转商是否偷换模型，直击行业「挂羊头卖狗肉」痛点。

你调的 GPT-4o，真的是 GPT-4o 吗？

这个问题在开发者圈子里流传已久，但一直缺少一个靠谱的验证手段。近日，开发者 sup194 在 GitHub 上开源了 model-forensics —— 一个专门用来检测模型 API 供应商是否造假的命令行工具。项目在 LINUX DO 社区首发后迅速引发讨论，戳中了大量依赖第三方中转服务的开发者的神经。

项目地址：https://github.com/sup194/model-forensics

说白了，这个工具干的事情就一件：帮你验明你花钱调用的模型，到底是不是它声称的那个模型。

model-forensics CLI 工具运行检测结果的终端截图示意

行业背景：中转站的灰色地带

先说说为什么需要这么一个工具。

国内开发者调用海外大模型 API，很多时候不是直连官方，而是通过各种中转站、聚合平台来访问。这个中间层本身是有价值的——解决网络可达性、统一接口格式、降低接入成本。但问题在于，这个中间层也天然具备了「做手脚」的能力。

常见的造假手段包括：

挂羊头卖狗肉：你以为调的是 GPT-4o，实际后端跑的是 GPT-4o-mini 甚至更便宜的模型，中间商吃差价
模型混用：同一个 API endpoint 背后并不固定对应一个模型，而是根据负载、成本动态切换
悄悄降级：上线初期确实是官方模型，跑了一段时间用户量上来后，偷偷换成低成本替代品

这些操作对终端用户来说几乎是无感的。你调一个 API，返回的 JSON 格式一模一样，model 字段写的也是 gpt-4o，但实际推理质量可能差了一个档次。尤其是在非极端 case 下，普通 prompt 的输出差异很难被肉眼察觉。

这就像你在餐厅点了一瓶 82 年的拉菲，服务员给你倒的是去年的国产干红，还把酒标换了。大部分人喝不出来，但你确实多付了钱。

之前社区里验证模型真伪的方式非常原始——发一些刁钻的 prompt 看回复风格，或者跑 benchmark 对比分数。这些方法要么太主观，要么太重，不适合日常使用。model-forensics 试图把这件事工程化、自动化。

model-forensics 的检测思路

这个工具的核心检测逻辑分两层，思路相当清晰。

第一层：异常筛查

通过一组精心设计的测试用例（test cases）对目标模型发起请求，观察返回结果中的异常信号。这些测试用例不是随便写的 prompt，而是针对不同模型已知行为特征设计的「探针」。

举个例子，不同模型在处理特定边界条件时的行为是有差异的：某些模型会拒绝特定类型的请求，某些模型在 token 计数上有独特的模式，某些模型的 system prompt 处理逻辑不同。这些差异就像指纹一样，可以用来区分模型身份。

这一层不需要任何本地参考数据，开箱即用，适合快速初筛。

第二层：指纹比对

如果你想要更确凿的证据，可以先用官方 API 建立一个本地指纹库（reference），然后拿中转站返回的结果去做比对。这就像是先采集了「正品」的 DNA，再拿「嫌疑样本」去做亲子鉴定。

指纹库存储在本地 SQLite 数据库中，支持多次采样、历史对比。你甚至可以定期跑检测，观察同一个供应商的模型表现是否随时间发生漂移——如果某天指纹突然变了，大概率是后端被换了。

上手实操

model-forensics 是一个标准的 CLI 工具，命令设计得很简洁。核心就三个子命令：inspect、profile、compare。

快速初筛（不建本地指纹库）

最简单的用法，直接对目标 API 跑一轮检测：

mforensics inspect examples/targets.yaml

targets.yaml 是你要检测的目标配置文件，里面定义了 API endpoint、model name、API key 等信息。工具会自动跑完所有测试用例，输出异常报告。

这种方式适合「我就想快速看一眼这个中转站靠不靠谱」的场景。

建立官方指纹库 + 精确比对

如果你有官方 API 的访问权限，可以先建立基准指纹：

mforensics profile examples/reference.yaml \
  --save-as gpt-4o-official \
  --db data/model-forensics.sqlite

这条命令会用官方 API 跑一遍完整的测试套件，把结果存到本地 SQLite 数据库里，标记为 gpt-4o-official。

然后对中转站的同名模型做检测：

mforensics inspect examples/targets.yaml \
  --db data/model-forensics.sqlite \
  --out reports/run-001

工具会自动把检测结果和本地指纹库做比对，输出匹配度报告。如果偏差超过阈值，基本可以判定后端模型不是它声称的那个。

历史对比：抓「偷换」行为

这是我觉得最实用的功能。你可以对同一个供应商在不同时间点的检测结果做 diff：

mforensics compare <run-id-a> <run-id-b> \
  --db data/model-forensics.sqlite

比如你上个月跑了一次，这个月又跑了一次，compare 一下就能看出模型行为是否发生了显著变化。如果一个供应商声称一直提供 Claude 3.5 Sonnet，但两次检测的指纹差异很大，那要么是上游模型本身更新了，要么就是供应商动了手脚。

结合定时任务（cron job），你甚至可以搭建一个持续监控系统，对关键供应商做周期性巡检。

技术实现上的几个亮点

虽然项目还处于早期阶段，但从设计思路上看有几个值得关注的点：

第一，测试用例和检测逻辑解耦。测试用例通过 YAML 配置文件定义，检测逻辑是独立的。这意味着社区可以贡献新的测试用例，覆盖更多模型和更多边界场景，而不需要改动核心代码。这个架构决策很聪明——模型在不断更新，检测手段也需要跟着迭代，把这部分做成可插拔的配置是对的。

第二，本地存储选择 SQLite。轻量、零依赖、单文件，对于一个 CLI 工具来说是最合理的选择。不需要你额外装数据库，跑完检测数据就在本地，随时可以查、可以对比、可以导出。

第三，报告输出支持自定义路径。--out 参数让你可以把每次检测结果存到指定目录，方便做版本管理。配合 Git 来管理检测报告的历史变更，也是一个可行的工作流。

局限性和需要注意的地方

说完优点，也得聊聊这个工具目前的局限。

首先，指纹检测的准确率高度依赖测试用例的质量和覆盖度。目前项目内置的测试用例数量和覆盖范围还有限，对于一些相近的模型（比如同一家族的不同尺寸版本），区分度可能不够。GPT-4o 和 GPT-4o-mini 的行为差异在很多常规场景下并不显著，需要非常精心设计的探针才能可靠区分。

其次，模型本身是会更新的。OpenAI、Anthropic、Google 都会不定期更新模型权重，这意味着官方模型的「指纹」本身就不是静态的。你上个月建的 reference，这个月可能就不完全准确了。这要求用户定期更新本地指纹库，增加了维护成本。

第三，检测过程需要消耗 API 调用额度。每次 inspect 或 profile 都要发送一批请求，如果测试用例多、目标供应商多，累积的 token 消耗不可忽视。对于个人开发者来说，这是一笔额外开支。

最后，这个工具能检测出「模型不一致」，但很难给出「实际用的是什么模型」的确切答案。它更像是一个报警器——告诉你「这个不对」，但具体是什么，还需要进一步分析。

这件事为什么重要

往大了说，model-forensics 触及的是 AI API 供应链信任的根本问题。

当越来越多的应用构建在大模型 API 之上，API 的质量和一致性就成了基础设施级别的问题。你的 RAG 系统、你的 Agent 工作流、你的代码生成管线，都依赖于底层模型的能力。如果底层模型被偷换了，上层应用的表现就会出问题，而且这种问题往往是隐性的、难以排查的。

这跟软件供应链安全是一个道理。你用 npm install 装一个包，你默认信任这个包的内容和它声称的一致。但 left-pad 事件、ua-parser-js 投毒事件告诉我们，这种信任不能是盲目的。AI API 供应链同样需要验证机制。

model-forensics 目前还是一个个人项目，功能和成熟度都有限。但它代表的方向是对的——我们需要工具来验证 AI 供应链的完整性，而不是仅仅依赖供应商的承诺。

对于正在使用中转服务的开发者，我的建议是：

对关键业务依赖的模型 API，定期做一次检测，哪怕是用最简单的 inspect 模式
如果有条件，建立官方模型的本地指纹库作为基准
关注检测结果的纵向变化，比单次检测更有价值

当然，选择靠谱的 API 供应商从源头上降低风险也很重要。像 OpenAI Hub（openai-hub.com）这类直接聚合官方渠道的平台，在模型一致性上相对更有保障，配合 model-forensics 做交叉验证，基本可以建立一个可信的调用链路。

如果你想用 API 自己做类似的检测逻辑

抛开 model-forensics 这个工具本身，它的检测思路其实可以集成到你自己的监控系统里。核心就是：对同一个 prompt，分别调用官方 API 和待检测 API，然后比对返回结果的特征。

下面是一个简化的示例，通过 OpenAI Hub 兼容接口分别调用官方模型和待检测目标，提取基础特征做对比：

import openai
import json

# 通过 OpenAI Hub 调用官方模型作为 reference
official_client = openai.OpenAI(
    api_key="your-openai-hub-key",
    base_url="https://api.openai-hub.com/v1"
)

# 待检测的中转站
target_client = openai.OpenAI(
    api_key="your-target-key",
    base_url="https://api.some-reseller.com/v1"
)

# 设计一组探针 prompt
probes = [
    {"role": "user", "content": "Repeat exactly: 'FINGERPRINT_CHECK_001'"},
    {"role": "user", "content": "What is 17 * 23? Reply with only the number."},
    {"role": "user", "content": "List the first 5 prime numbers, comma-separated, no spaces."},
]

def collect_fingerprint(client, model_name, probes):
    results = []
    for probe in probes:
        resp = client.chat.completions.create(
            model=model_name,
            messages=[probe],
            temperature=0,
            max_tokens=50
        )
        results.append({
            "probe": probe["content"],
            "response": resp.choices[0].message.content,
            "usage": {
                "prompt_tokens": resp.usage.prompt_tokens,
                "completion_tokens": resp.usage.completion_tokens
            },
            "model_reported": resp.model
        })
    return results

# 采集指纹
official_fp = collect_fingerprint(official_client, "gpt-4o", probes)
target_fp = collect_fingerprint(target_client, "gpt-4o", probes)

# 简单对比
for i, (o, t) in enumerate(zip(official_fp, target_fp)):
    match = o["response"].strip() == t["response"].strip()
    token_diff = abs(o["usage"]["completion_tokens"] - t["usage"]["completion_tokens"])
    print(f"Probe {i+1}: content_match={match}, token_diff={token_diff}")
    if not match:
        print(f"  Official: {o['response'][:80]}")
        print(f"  Target:   {t['response'][:80]}")

这只是最基础的对比逻辑。实际生产中你还需要考虑：多次采样取统计分布（因为即使 temperature=0 也可能有微小波动）、更多维度的特征提取（响应延迟、token 概率分布等）、以及异常判定的阈值设定。model-forensics 在这些方面做了更系统的工程化封装，值得参考。

写在最后

模型造假这件事，短期内不会消失。只要存在信息不对称和利润空间，就会有人动歪脑筋。model-forensics 不能根治这个问题，但它给了开发者一个趁手的验证工具。

开源社区的力量在于，当一个人把问题定义清楚、把基础框架搭好，后续的测试用例、检测策略、模型覆盖度都可以靠社区协作来完善。希望这个项目能持续迭代，也希望它的存在能倒逼中转服务商提高透明度。

毕竟，信任不应该建立在「反正你也查不出来」的基础上。

参考来源：

model-forensics GitHub 仓库 — 项目源码与文档
LINUX DO 社区原帖：看还有哪些中转商参假！一个完全开源的模型检测项目！ — 项目首发介绍与社区讨论

model-forensics 开源：一行命令验明模型真身