实验性能≠临床性能,放射科医生浅谈医疗AI领域三件“错事”

目前为止,还没有人能完全证明:使用医疗AI时,病人的情况会更好。

作者: 药明康德AI 来源: 药明康德AI 2019-09-25 16:50:27

放射科医生Luke Oakden-Rayner认为,在医疗AI中,人们做错了三件事,其中之一是:假设良好的实验性能等于良好的临床性能。即,一部分人认为医疗AI在实验中取得的良好效果,在临床中也能取得同等的结果。在Luke看来,这两者之间并不能划等号,良好的实验性能并不等同于良好的临床性能,并给出了具体的解释。

 
人们考虑将医疗AI系统用于现实世界的临床试验,应用到病人身上。这一定程度意味着人们对AI模型测试的结果感兴趣,但是他们对于模型是如何构建、如何设计决策以及如何训练的过程,并不会关心太多,甚至还会认为这只是程序员应该做的事,这也一定程度导致人们对测试性AI的“误解”。所以,对于AI应用于临床试验的结果是否100%可靠,也就需要打上一个问号了。

 
有一种说法:了解模型的设计过程,结果才可能是有效的。
 
Luke认为这样说有点夸大,但却与当前医疗AI的研究进展以及实际落地的案例较为相符,只有了解AI模型构建的过程,进而使用高性能模型,并在适当大小的数据集上进行训练后,结果才可能是有意义的。

目前为止,还没有人能完全证明:使用医疗AI时,病人的情况会更好。虽然在许多研究、论文以及监管批准的实例中,医疗AI系统性能测试表现优良,但这些测试通常只是基于一组或者几组患者的数据集,定义一个衡量性能的标准,并人为界定什么是“良好”性能,然后使用某种统计检验来分析结果,从而评估结果的可靠性。在这些测试的环节中,人们几乎控制了除人工智能模型以外的所有因素。

可实际的临床试验与概念验证阶段的性能测试不同,临床中的试验能表现出医疗AI在实际医疗保健环境中的运行是否有效、能否为患者带来更好的临床效果以及能知晓具体的治疗费用;换句话说,具有特定病症患者的死亡率、残疾率等将会以十分精确的数字体现,甚至细化到每位患者所花费的金额也一目了然。然而这些具体的、与实际相关的结果在AI的概念验证阶段却是无法具体实现的。

举个例子来说,计算机辅助诊断(CAD)是90年代医疗AI常见的术语,多用于钼靶X线筛查。虽然在早期的实验中证明CAD系统性能良好,但在临床实践中,CAD系统却存在不少误报。让该系统两次运行同一研究,其获得的结果可能完全不同。虽然,至今有很多研究表明CAD帮助放射科医生以最低的成本筛查了更多的癌症,但这些研究都是对照实验,样本数据也不够多(参与试验的人数从几十名到几千名),而且这些研究的科研人员几乎从未在临床实践中研究过患者的预后情况。所以,从概念验证到实际应用于临床还是有很长一段“路”需要走的。
 
此外还有一个例子能简单说明,想象一下,当人们将性能良好的实验性AI系统应用于急救或者重症监护时会发生什么?如果医疗AI模型表现良好,但在实际临床实践中却表现不佳,不难想象,将会导致数十起的“悲剧”的发生。

当然,这不是完全否定概念验证阶段的医疗AI一无是处,它们也代表了医疗AI领域的突破;只不过,人们需要清楚意识到的是,良好的实验性能不能直接等同于良好的临床性能。

Luke表示,目前已经有大量证据表明,人们目前在使用的评估和批准医疗AI系统的方案还不够完善,若认为良好的实验室性能就是良好的临床性能,就将医疗AI用于临床实际,那恐将造成医疗费用增加并对患者造成无法估量的伤害。

概念验证阶段取得的“好成绩”或是突破式成就,更应该称之为获得优异临床试验结果的基石,最重要的还是科研人员不断优化系统方案。期待经过这段医疗AI研究的“沉淀期”后,有越来越多的可落地的实际案例出现,从而赋能现代医学、造福人类!


本文转载自其他网站,不代表大健康派观点和立场。如有内容和图片的著作权异议,请及时联系我们(邮箱:scarlet.s@djkpai.com)

医疗AI 辅助诊断 临床试验

关注大健康Pai 官方微信:djkpai我们将定期推送医健科技产业最新资讯