王小川：医疗对AI大模型有3点刚性要求，通用模型一条都不达标_医疗人工智能

王小川：医疗对AI大模型有3点刚性要求，通用模型一条都不达标

5月22日，“AI医疗新范式”学术论坛在清华大学百川楼举行。论坛现场，百川智能创始人兼 CEO 王小川发表了主题演讲，并展示新一代医疗大模型 Baichuan-M4。

作者：大健康派来源：大健康派 2026-05-28 14:08:49

王小川介绍，此次亮相的Baichuan-M4在HealthBench、HealthBench Hard、HealthBench Professional三大权威医疗榜单中同时位列世界第一，全面超越 GPT-5.5、Opus 4.7、DeepSeek-V4-Pro 等顶尖模型。

依托原创的事实性感知强化学习算法，Baichuan-M4 将裸模型的事实性幻觉率降至 3.3%（此前M3的医疗幻觉率为3.5%）。循证路径上，M4 将权威医学指南拆解为 1000 余条原子化临床路径，每一条由顶尖临床专家定义与校验，确保推理过程遵循医学逻辑。此外，还拥有超长记忆能力，能够托起患者长周期的健康管理。

王小川在演讲中指出，医疗对大模型的刚性要求有三点：

一是低幻觉。医疗容不得编造，一个错误判断可能危及生命。《BMJ Open》2026 年的研究显示，主流通用模型的医疗回答中，约 50% 被评为“有问题”，近 20% 属于“高度有问题”，幻觉率在严肃医疗场景下不可接受。

二是强循证。临床诊断有严格的循证路径，不是“根据症状猜一个最可能的病”。《JAMA Network Open》2026 年评测了 21 款主流大模型在 29 个标准化临床案例中的表现，鉴别诊断阶段的错误率普遍超过 80%——不按指南逻辑层层排除，而是过早锁定一个答案。

三是会提问。任何受过训练的医生都不会在患者说完第一句话时就下结论。牛津大学 2026 年发表于《Nature Medicine》的研究显示：AI 读标准化病历时准确率可达 94.9%，但真实患者自助使用时骤降至 34.5%。原因在于患者描述往往不完整，而通用模型不会像医生一样追问。

王小川指出，三条刚需，通用模型一条都不达标。与会嘉宾们也表示，通用模型的回答听起来流利、看起来专业，实际上经常“看似对、实际危险”。幻觉被包装成了确定性，患者带着 AI 给的“诊断”走进诊室质疑医生，医患矛盾反而加剧。王小川强调，AI真正进入医疗必须依靠医疗增强大模型，而非通用模型的简单套用。

医疗大模型百川智能 AI医疗

关注大健康Pai 官方微信：djkpai我们将定期推送医健科技产业最新资讯

王小川：医疗对AI大模型有3点刚性要求，通用模型一条都不达标

友情链接