夸克健康大模型通过中国医师资格考试,技术报告首度公开

近日,夸克健康大模型宣布已通过中国12门核心学科的主任医师级别笔试评测,成为国内首个公开达成该目标的大模型。

作者: 夸克AI实验室 来源: 夸克AI实验室 2025-08-27 13:41:23

近日,夸克健康大模型宣布已通过中国12门核心学科的主任医师级别笔试评测,成为国内首个公开达成该目标的大模型。随后,其技术团队在Github及arXiv平台发布了完整技术报告,披露了模型架构、训练策略与多项测试结果,旨在为AI在医疗咨询、诊断辅助与医学搜索等领域的应用提供可参考的技术方案。

 

该模型针对医疗领域高复杂性、高准确率要求的特点,构建了一套多层次的技术体系。

一、构建多层次医疗数据体系

夸克健康大模型依托三类核心数据源:医学资料、医学知识与医疗记录,分别用于不同阶段的模型训练。

其中,“医学资料”库实现了事实类知识90%、概念类知识84%、程序类知识75%以上的覆盖率,建立起从基础到高阶推理的梯次知识结构。“医学知识”部分则通过特定方法将非结构化数据用于预训练、指令微调等多个阶段,并将结构化数据转为自然语言以适配大模型处理。“医疗记录”语料经严格隐私脱敏处理,并规范化为连贯的临床文档,以提升模型在实际场景中的泛化能力。

二、分阶段训练策略增强模型鲁棒性

模型训练分为指令微调(IFT)与监督微调(SFT)两大部分。IFT阶段致力于将模型从文本补全工具转化为能执行专业医疗任务的助手,其构建了面向任务的数据集,采用能力驱动与问题驱动双管齐下策略,系统提升模型综合能力与缺陷修复能力。

SFT阶段则强调数据质量管控,通过严谨流程确保训练样本在多样性、稳健性和医学合理性等方面达标。结果显示,模型对错误信息的抵抗能力显著增强,可识别误导性前提、事实矛盾及不合理假设,降低生成错误回答的风险。

三、双阶段强化学习优化推理,对齐人类偏好

团队采用两个强化学习(RL)阶段分别提升模型的专业推理能力与人类偏好对齐能力。

第一阶段为“大规模医学强化学习”,针对诊断、用药、检验开具等高推理强度任务,设计混合奖励模型,以规则优先并结合事实验证的方式提供客观且稳定的奖励信号,避免奖励作弊。第二阶段为“通用强化学习”,通过奖励模型(RM)从诚实性、有用性及合规性三方面评估输出,优化模型行为。

实验显示,群体相对策略优化(GRPO)在多数维度表现优于直接偏好优化(DPO),尤其在总体得分与安全维度上优势显著,因而被选为该项目的核心强化学习算法。

四、内外基准测试表现优异

据介绍,在公共(外部)与私有(内部)基准上进行评估,夸克健康大模型在约30B参数类别中表现领先。在中国医师资格考试(CPQExam)内部测试中,其成绩随考试级别提高优势更加明显。

夸克方面表示,团队还计划发布基于中国医师资格考试优化的内部基准测试集,以促进医学相关的AI研究。

 

报告地址:

Github:

https://github.com/Quark-Medical/QuarkMed/blob/main/report/QuarkMed_Technical_Report.pdf

 

arXiv:

https://arxiv.org/abs/2508.11894

夸克健康大模型 中国医师资格考试 AI医疗

关注大健康Pai 官方微信:djkpai我们将定期推送医健科技产业最新资讯