百川M4登顶HealthBench:医疗大模型卷出新高度

百川智能与清华联合发布Baichuan-M4,在HealthBench三大榜单同时世界第一,综合分领先GPT-5.5超10分,幻觉率压到3.3%。
百川M4登顶HealthBench:医疗大模型卷出新高度,GPT-5.5被甩开10分
6月22日,百川智能联合清华大学正式发布新一代医疗增强大模型 Baichuan-M4。这次发布没什么悬念——半年前的 M3 就已经把 GPT-5.2 按在地上摩擦,M4 不过是再次确认了百川在医疗垂类上的统治力。但有意思的细节藏在数字里:HealthBench 综合分 68.6,领先第二名 GPT-5.5 超过 10 分;Hard 子集领先 15.9 分;幻觉率 3.3%。这已经不是"超越",是直接拉开了一个代差。

一句话先说结论
M4 在 OpenAI 自家提出的 HealthBench、HealthBench Hard、HealthBench Professional 三个榜单上同时拿了世界第一,把 GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro 全部按住。要注意的是 Hard 子集——这个榜单专门用来考复杂临床决策,是 OpenAI 用来恶心通用模型的"地狱难度",过去半年里能拿到 50 分以上的模型屈指可数。M4 在 Hard 上领先第二名 15.9 分,差距比 M3 时代又拉大了。
回过头看 M 系列的节奏:去年 8 月 M2(32B,开源),今年 1 月 M3(235B,开源),到 6 月的 M4。每一代都踩着 OpenAI 新模型的脚后跟发布,每一代都把幻觉率往下压一截:M2 时期还在 4% 以上,M3 干到 3.5%,M4 现在是 3.3%。在医疗这个错一个字就可能死人的场景里,0.2 个百分点不是小数字。
M4 到底改了什么
如果只看榜单,M4 像是 M3 的常规升级。但拆开技术报告,会发现这次的改动其实在重新定义"医疗大模型应该长什么样"。百川 CEO 王小川在 5 月清华那场学术论坛上抛出过一个判断:医疗场景对大模型有三条刚性要求——低幻觉、强循证、会提问,而通用大模型一条都不达标。M4 基本就是围绕这三条做的针对性优化。
第一个变化:会主动追问,而不是急着给答案
这个其实是 M3 时代的"严肃问诊范式"在 M4 上的延续和深化。通用大模型有个臭毛病——你问什么它就答什么,user 给出多少信息它就用多少信息推理。结果就是用户描述"我胸口疼",模型直接给出十种可能的疾病列表,看起来很全面,但临床上没用。
M4 的逻辑反过来:先识别有没有危急重症的信号,再追问症状的性质、诱因、伴随表现、既往史。它优先做的是排除而不是推断。这个差别看上去微妙,但在 SCAN-bench 评测体系里能看出实打实的差距。
SCAN-bench 是百川和 150 多位一线医生一起搭的评测体系,思路来自医学教育里跑了几十年的 OSCE(客观结构化临床考试)——不考你背了多少教科书,考你能不能像医生一样把诊疗流程跑下来。这个评测的核心是动态多轮:评测员扮演患者,会根据模型的问题挤牙膏式地给信息,模型要自己决定问什么、问到什么程度才能下诊断。
评测结果:
- M4 初诊 79.0、复诊 74.7
- 明显领先 GPT-5.5、DeepSeek-V4-Pro、Claude Opus 4.7
- 在 SCAN 的四个维度上全部高于人类医生基线水平
后面这条是关键。M3 时代百川就声称模型表现超过人类医生基线,当时业内还有不少质疑,认为是评测口径偏窄。M4 这次拉到初诊+复诊两个完整环节,全部超过基线,更难辩驳。
第二个变化:全病程记忆
这个功能我觉得是这次升级里最被低估的部分。
通用模型的问题在于——你这次问完了,下次再来,它根本不记得你是谁。糖尿病患者每三个月查一次糖化血红蛋白,这种长周期管理对通用模型来说基本是灾难。每次都要把历史病历、用药史、化验趋势重新粘进上下文,体验差且容易出错。
M4 把历史病历、多轮问诊记录、化验趋势、用药反馈打通成一条"全病程记忆"。模型在多次对话中知道你既往得过什么、各项指标怎么变化的、上次开的药有没有副作用反馈。
在长上下文临床记忆评测中:
- M4 拿到 86.9 分,同类最高
- 比 M3 提升 21.1 分
21 分的提升是什么概念?大概相当于从"勉强能用"跨到"可以临床部署"。这套能力配合百川自家的 AI 家庭医生"百小医",基本能撑起一个完整的长周期健康管理产品。

第三个变化:证据锚定 + 1000+ 临床路径单元
医疗大模型的另一个老大难是"证据从哪来"。早期的做法是 RAG——挂一个文献库,模型生成完了标注个"参考文献 [3]"。但实际操作下来,标注的文献和生成的结论经常对不上号,模型本质上还是在拍脑袋。
M4 推的"证据锚定"是把这个要求拧紧了一圈:生成的每一句医学结论,都要精确对应到原始论文或指南中的具体段落,不是模糊引用文献,是定位到段落级别。配合"六源循证范式",模型检索范围被限定在权威医学来源,开放网络的资料不要。
更进一步,M4 把权威指南、专家共识、真实诊疗流程拆解成了1000 多个标准化、可复用的临床路径单元,覆盖 200 多种疾病,每条都由资深临床专家定义和校验。这事儿听起来朴素,但实际工作量惊人——把一份临床指南拆成原子化的可执行单元,需要医学专家和工程团队反复对齐。
在百川自己的循证医学评测 Baichuan-EBM 上:
- M4 循证引用精度 90.0
- GPT-5.5 是 54.7
- 专做循证医疗的 OpenEvidence 是 55.9
要知道 OpenEvidence 是医疗循证赛道的专业玩家,被 M4 干掉 35 分。这个差距能反映出,垂直领域的工程化 know-how 在某些场景下确实能压过通用大模型的参数规模。
怎么看通用模型 vs 医疗专模型这场仗
王小川在 5 月那场演讲里引用过一组数据:通用模型在医疗问答中约 50% 被评估为"有问题",鉴别诊断错误率普遍超 80%,真实患者自助使用时准确率从 94.9% 骤降至 34.5%。
最后这个数字才是问题的核心。学术评测里通用模型表现得人模狗样,是因为评测题本身就是结构化的——病史给得齐整,问题描述清楚,连鉴别诊断的选项都列好了。但真实患者不是这么说话的。他们会说"我感觉这两天不太对劲""晚上睡不好""那个药吃了以后好像有点反应"。通用模型应付不了这种非结构化输入,准确率断崖式下跌很正常。
M4 的整个设计哲学是反过来的:默认用户不会描述、不会提问、不知道什么是重要信息。模型必须主动接管诊疗流程的主导权。这种设计在通用对话场景里其实是负优化——你不希望 GPT 写代码之前先问你十个问题。但在医疗场景,这是刚需。
这也回答了一个争议:医疗到底需不需要专用模型?过去两年这事儿吵了很多回合,OpenAI 和 Anthropic 都明显在加码医疗——前者搞了 ChatGPT Health,后者推出 Claude for Healthcare。两家的策略是"通用模型 + 垂直数据",没有专门训练医疗基座。M4 这次的结果至少证明一件事:在医疗这个对幻觉率、循证、问诊流程都有刚性要求的场景,专门训练的中等规模模型可以在效果上压过通用大模型,而且成本可能还更低。
一些没说透的地方
几个值得后续观察的点:
- M4 是否开源:M2、M3 都开源了,M4 暂时还没看到 Hugging Face 和 GitHub 仓库的明确信息。百川的策略一直是发布后短期内放出权重,估计 M4 也不会例外,但参数规模可能比 M3 更大。
- 临床落地的速度:医疗 AI 卡在监管这关已经很多年了。M4 的能力到位了,但要进入医院系统、获得器械认证,还有相当长的合规路径要走。
- 百小医的产品形态:5 月一起发布的"百小医"AI 家庭医生应用,是 M4 最主要的 To C 出口。能不能从评测分数转化成真实的用户留存和付费意愿,这是另一道题。
- SCAN-bench 是否会被广泛采用:百川自建评测体系一直有"既当运动员又当裁判"的争议。HealthBench 是 OpenAI 提的、相对中立,M4 在上面拿冠军更有说服力。SCAN-bench 的成绩要等其他厂商也认这个评测才能定。
写在最后
M4 这次发布不算意外,但意义在于把医疗大模型的能力边界又往前推了一截。HealthBench 综合分领先 10 分、Hard 子集领先 15.9 分、循证精度领先 35 分——这些都不是统计误差能解释的差距。
百川从 M2 开始死磕医疗,到 M4 已经第四代了,是国内少有的真正在垂直领域坚持下来的团队。AI 医疗这个赛道过去两年里倒了不少公司,活下来并且持续在做技术突破的没几家。M4 至少证明了一件事:在一个足够窄、足够深的领域里,做透了是有价值的,比追着通用大模型的尾灯跑要清醒。
参考来源
- IT之家:百川发布新一代医疗增强大模型 M4,登顶 OpenAI 医疗评测 - M4 发布的核心数据和技术细节报道
- GitHub:Baichuan-M2-32B 仓库 - M 系列前作 M2 的开源仓库,可参考其技术架构
- 知乎:百川 32B 医疗模型登顶全球 - M2 时代百川医疗模型对比 OpenAI 的分析



