王小川:医疗对AI大模型有3点刚性要求,通用模型一条都不达标
5月22日,“AI医疗新范式”学术论坛在清华大学百川楼举行。论坛现场,百川智能创始人兼 CEO 王小川发表了主题演讲,并展示新一代医疗大模型 Baichuan-M4。
5月22日,“AI医疗新范式”学术论坛在清华大学百川楼举行。论坛现场,百川智能创始人兼 CEO 王小川发表了主题演讲,并展示新一代医疗大模型 Baichuan-M4。
王小川介绍,此次亮相的Baichuan-M4在HealthBench、HealthBench Hard、HealthBench Professional三大权威医疗榜单中同时位列世界第一,全面超越 GPT-5.5、Opus 4.7、DeepSeek-V4-Pro 等顶尖模型。
依托原创的事实性感知强化学习算法,Baichuan-M4 将裸模型的事实性幻觉率降至 3.3%(此前M3的医疗幻觉率为3.5%) 。循证路径上,M4 将权威医学指南拆解为 1000 余条原子化临床路径,每一条由顶尖临床专家定义与校验,确保推理过程遵循医学逻辑。此外,还拥有超长记忆能力,能够托起患者长周期的健康管理。
王小川在演讲中指出,医疗对大模型的刚性要求有三点:
一是低幻觉。医疗容不得编造,一个错误判断可能危及生命。《BMJ Open》2026 年的研究显示,主流通用模型的医疗回答中,约 50% 被评为“有问题”,近 20% 属于“高度有问题”,幻觉率在严肃医疗场景下不可接受。
二是强循证。临床诊断有严格的循证路径,不是“根据症状猜一个最可能的病”。《JAMA Network Open》2026 年评测了 21 款主流大模型在 29 个标准化临床案例中的表现,鉴别诊断阶段的错误率普遍超过 80%——不按指南逻辑层层排除,而是过早锁定一个答案。
三是会提问。任何受过训练的医生都不会在患者说完第一句话时就下结论。牛津大学 2026 年发表于《Nature Medicine》的研究显示:AI 读标准化病历时准确率可达 94.9%,但真实患者自助使用时骤降至 34.5%。原因在于患者描述往往不完整,而通用模型不会像医生一样追问。
王小川指出,三条刚需,通用模型一条都不达标。与会嘉宾们也表示,通用模型的回答听起来流利、看起来专业,实际上经常“看似对、实际危险”。幻觉被包装成了确定性,患者带着 AI 给的“诊断”走进诊室质疑医生,医患矛盾反而加剧。王小川强调,AI真正进入医疗必须依靠医疗增强大模型,而非通用模型的简单套用。
关注大健康Pai 官方微信:djkpai我们将定期推送医健科技产业最新资讯


