百川智能与清华联合发布Baichuan-M4，在HealthBench三大榜单同时世界第一，综合分领先GPT-5.5超10分，幻觉率压到3.3%。

百川M4登顶HealthBench：医疗大模型卷出新高度，GPT-5.5被甩开10分

6月22日，百川智能联合清华大学正式发布新一代医疗增强大模型 Baichuan-M4。这次发布没什么悬念——半年前的 M3 就已经把 GPT-5.2 按在地上摩擦，M4 不过是再次确认了百川在医疗垂类上的统治力。但有意思的细节藏在数字里：HealthBench 综合分 68.6，领先第二名 GPT-5.5 超过 10 分；Hard 子集领先 15.9 分；幻觉率 3.3%。这已经不是"超越"，是直接拉开了一个代差。

Baichuan-M4 在 HealthBench 三大榜单的得分对比图

一句话先说结论

M4 在 OpenAI 自家提出的 HealthBench、HealthBench Hard、HealthBench Professional 三个榜单上同时拿了世界第一，把 GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro 全部按住。要注意的是 Hard 子集——这个榜单专门用来考复杂临床决策，是 OpenAI 用来恶心通用模型的"地狱难度"，过去半年里能拿到 50 分以上的模型屈指可数。M4 在 Hard 上领先第二名 15.9 分，差距比 M3 时代又拉大了。

回过头看 M 系列的节奏：去年 8 月 M2（32B，开源），今年 1 月 M3（235B，开源），到 6 月的 M4。每一代都踩着 OpenAI 新模型的脚后跟发布，每一代都把幻觉率往下压一截：M2 时期还在 4% 以上，M3 干到 3.5%，M4 现在是 3.3%。在医疗这个错一个字就可能死人的场景里，0.2 个百分点不是小数字。

M4 到底改了什么

如果只看榜单，M4 像是 M3 的常规升级。但拆开技术报告，会发现这次的改动其实在重新定义"医疗大模型应该长什么样"。百川 CEO 王小川在 5 月清华那场学术论坛上抛出过一个判断：医疗场景对大模型有三条刚性要求——低幻觉、强循证、会提问，而通用大模型一条都不达标。M4 基本就是围绕这三条做的针对性优化。

第一个变化：会主动追问，而不是急着给答案

这个其实是 M3 时代的"严肃问诊范式"在 M4 上的延续和深化。通用大模型有个臭毛病——你问什么它就答什么，user 给出多少信息它就用多少信息推理。结果就是用户描述"我胸口疼"，模型直接给出十种可能的疾病列表，看起来很全面，但临床上没用。

M4 的逻辑反过来：先识别有没有危急重症的信号，再追问症状的性质、诱因、伴随表现、既往史。它优先做的是排除而不是推断。这个差别看上去微妙，但在 SCAN-bench 评测体系里能看出实打实的差距。

SCAN-bench 是百川和 150 多位一线医生一起搭的评测体系，思路来自医学教育里跑了几十年的 OSCE（客观结构化临床考试）——不考你背了多少教科书，考你能不能像医生一样把诊疗流程跑下来。这个评测的核心是动态多轮：评测员扮演患者，会根据模型的问题挤牙膏式地给信息，模型要自己决定问什么、问到什么程度才能下诊断。

评测结果：

M4 初诊 79.0、复诊 74.7
明显领先 GPT-5.5、DeepSeek-V4-Pro、Claude Opus 4.7
在 SCAN 的四个维度上全部高于人类医生基线水平

后面这条是关键。M3 时代百川就声称模型表现超过人类医生基线，当时业内还有不少质疑，认为是评测口径偏窄。M4 这次拉到初诊+复诊两个完整环节，全部超过基线，更难辩驳。

第二个变化：全病程记忆

这个功能我觉得是这次升级里最被低估的部分。

通用模型的问题在于——你这次问完了，下次再来，它根本不记得你是谁。糖尿病患者每三个月查一次糖化血红蛋白，这种长周期管理对通用模型来说基本是灾难。每次都要把历史病历、用药史、化验趋势重新粘进上下文，体验差且容易出错。

M4 把历史病历、多轮问诊记录、化验趋势、用药反馈打通成一条"全病程记忆"。模型在多次对话中知道你既往得过什么、各项指标怎么变化的、上次开的药有没有副作用反馈。

在长上下文临床记忆评测中：

M4 拿到 86.9 分，同类最高
比 M3 提升 21.1 分

21 分的提升是什么概念？大概相当于从"勉强能用"跨到"可以临床部署"。这套能力配合百川自家的 AI 家庭医生"百小医"，基本能撑起一个完整的长周期健康管理产品。

M4 全病程记忆功能的临床应用场景示意图

第三个变化：证据锚定 + 1000+ 临床路径单元

医疗大模型的另一个老大难是"证据从哪来"。早期的做法是 RAG——挂一个文献库，模型生成完了标注个"参考文献 [3]"。但实际操作下来，标注的文献和生成的结论经常对不上号，模型本质上还是在拍脑袋。

M4 推的"证据锚定"是把这个要求拧紧了一圈：生成的每一句医学结论，都要精确对应到原始论文或指南中的具体段落，不是模糊引用文献，是定位到段落级别。配合"六源循证范式"，模型检索范围被限定在权威医学来源，开放网络的资料不要。

更进一步，M4 把权威指南、专家共识、真实诊疗流程拆解成了1000 多个标准化、可复用的临床路径单元，覆盖 200 多种疾病，每条都由资深临床专家定义和校验。这事儿听起来朴素，但实际工作量惊人——把一份临床指南拆成原子化的可执行单元，需要医学专家和工程团队反复对齐。

在百川自己的循证医学评测 Baichuan-EBM 上：

M4 循证引用精度 90.0
GPT-5.5 是 54.7
专做循证医疗的 OpenEvidence 是 55.9

要知道 OpenEvidence 是医疗循证赛道的专业玩家，被 M4 干掉 35 分。这个差距能反映出，垂直领域的工程化 know-how 在某些场景下确实能压过通用大模型的参数规模。

怎么看通用模型 vs 医疗专模型这场仗

王小川在 5 月那场演讲里引用过一组数据：通用模型在医疗问答中约 50% 被评估为"有问题"，鉴别诊断错误率普遍超 80%，真实患者自助使用时准确率从 94.9% 骤降至 34.5%。

最后这个数字才是问题的核心。学术评测里通用模型表现得人模狗样，是因为评测题本身就是结构化的——病史给得齐整，问题描述清楚，连鉴别诊断的选项都列好了。但真实患者不是这么说话的。他们会说"我感觉这两天不太对劲""晚上睡不好""那个药吃了以后好像有点反应"。通用模型应付不了这种非结构化输入，准确率断崖式下跌很正常。

M4 的整个设计哲学是反过来的：默认用户不会描述、不会提问、不知道什么是重要信息。模型必须主动接管诊疗流程的主导权。这种设计在通用对话场景里其实是负优化——你不希望 GPT 写代码之前先问你十个问题。但在医疗场景，这是刚需。

这也回答了一个争议：医疗到底需不需要专用模型？过去两年这事儿吵了很多回合，OpenAI 和 Anthropic 都明显在加码医疗——前者搞了 ChatGPT Health，后者推出 Claude for Healthcare。两家的策略是"通用模型 + 垂直数据"，没有专门训练医疗基座。M4 这次的结果至少证明一件事：在医疗这个对幻觉率、循证、问诊流程都有刚性要求的场景，专门训练的中等规模模型可以在效果上压过通用大模型，而且成本可能还更低。

一些没说透的地方

几个值得后续观察的点：

M4 是否开源：M2、M3 都开源了，M4 暂时还没看到 Hugging Face 和 GitHub 仓库的明确信息。百川的策略一直是发布后短期内放出权重，估计 M4 也不会例外，但参数规模可能比 M3 更大。
临床落地的速度：医疗 AI 卡在监管这关已经很多年了。M4 的能力到位了，但要进入医院系统、获得器械认证，还有相当长的合规路径要走。
百小医的产品形态：5 月一起发布的"百小医"AI 家庭医生应用，是 M4 最主要的 To C 出口。能不能从评测分数转化成真实的用户留存和付费意愿，这是另一道题。
SCAN-bench 是否会被广泛采用：百川自建评测体系一直有"既当运动员又当裁判"的争议。HealthBench 是 OpenAI 提的、相对中立，M4 在上面拿冠军更有说服力。SCAN-bench 的成绩要等其他厂商也认这个评测才能定。

写在最后

M4 这次发布不算意外，但意义在于把医疗大模型的能力边界又往前推了一截。HealthBench 综合分领先 10 分、Hard 子集领先 15.9 分、循证精度领先 35 分——这些都不是统计误差能解释的差距。

百川从 M2 开始死磕医疗，到 M4 已经第四代了，是国内少有的真正在垂直领域坚持下来的团队。AI 医疗这个赛道过去两年里倒了不少公司，活下来并且持续在做技术突破的没几家。M4 至少证明了一件事：在一个足够窄、足够深的领域里，做透了是有价值的，比追着通用大模型的尾灯跑要清醒。

参考来源

IT之家：百川发布新一代医疗增强大模型 M4，登顶 OpenAI 医疗评测 - M4 发布的核心数据和技术细节报道
GitHub：Baichuan-M2-32B 仓库 - M 系列前作 M2 的开源仓库，可参考其技术架构
知乎：百川 32B 医疗模型登顶全球 - M2 时代百川医疗模型对比 OpenAI 的分析

百川M4登顶HealthBench：医疗大模型卷出新高度

百川M4登顶HealthBench：医疗大模型卷出新高度，GPT-5.5被甩开10分

一句话先说结论

M4 到底改了什么

第一个变化：会主动追问，而不是急着给答案

第二个变化：全病程记忆

第三个变化：证据锚定 + 1000+ 临床路径单元

怎么看通用模型 vs 医疗专模型这场仗

一些没说透的地方

写在最后

参考来源

相关推荐

京东开源JoyAI-VL-Interaction：让模型"边看边说"

免费API背后的杀招：AI中转站正在猎杀开发者

阿里 HappyHorse 1.1 来了：开源视频模型再上一档

联系我们