临床AI陷入“模型吞噬模型的世界”,大模型预测能力并不靠谱?

越来越多的AI工具被用于从败血症到中风等等一切疾病的预测,希望能够及早提供护理,挽救生命。

作者: Wendi 来源: 大健康派 2023-10-12 10:20:50

越来越多的AI工具被用于从败血症到中风等等一切疾病的预测,希望能够及早提供护理,挽救生命。

但随着时间的推移,有新的研究表明,这些预测模型很可能伴随着其本身的成功而堕入深渊——由于预测成功,导致其表现急剧下降,并产生不准确的、潜在有害的结果。

这项新研究于近日发表在《内科年鉴》上。西奈山伊坎医学院数据驱动和数字医学讲师、这项新研究的作者Akhil Vaid说:“在测试模型时,没有办法解释这一点。你不能进行验证研究,不能进行外部验证,不能进行临床试验,因为他们只会告诉你这个模型是有效的。一旦它开始工作,问题就会出现。

Vaid 和他在西奈山的同事模拟了两种模型的部署,预测患者在进入 ICU 后五天内死亡和急性肾损伤的风险。

他们的模拟中,假设这些模型做到了他们预期应该做的事情,即通过识别患者进行早期干预来降低死亡和肾损伤。

但是,当患者开始好转时,这些模型在预测肾衰竭和死亡率的可能性方面就变得不那么准确了。即便重新训练模型,或是用其他方法来阻止预测能力的衰退,都无济于事。

很少有医疗卫生系统会随着时间的推移去跟踪AI模型的性能,上述新研究成为了一个警示,并且提出了问题——AI预测模型潜在的性能下降对患者意味着什么,特别是在部署了多个AI系统的环境中,这些系统可能会影响患者的治疗效果,并且随着时间的推移,它们彼此之间的性能表现也会互相影响。

去年,美国医疗媒体STAT和麻省理工学院的一项调查,通过测试三种预测算法的性能,捕捉到了模型性能如何随着时间的推移而下降。在过去的十年中,预测败血症、住院时间和死亡率的准确性确实存在明显差异。导致这一问题的罪魁祸首是临床变化的组合、医院使用新的医学编码标准、以及来自新社区的患者大量涌入。

模型出现这样的故障是由于“数据漂移”造成的。约翰·霍普金斯大学医学院传染病与健康信息学研究员Matthew Robinson,也是西奈山研究的作者之一,他表示:“关于输入数据如何随着时间的推移而变化,并产生令人意想不到的输出,人们进行了很多讨论。”

这项新的研究发现了一个反常的问题,随着时间的推移,预测模型的性能可能会下降。成功的预测模型却创建了这样一个反馈循环:随着AI帮助推动干预措施以保持患者的健康,那么系统内的电子健康记录可能就会开始反映较低的肾损伤率或死亡率,然后随着时间的推移这些数据被用于重新训练模型。

Vaid:“只要你的数据受到了模型输出的污染或破坏,那么你就会遇到问题。”

研究人员基于当今的AI医疗卫生系统,展示了该问题在三种情况下是如何出现的。

首先,他们自己部署了死亡率预测模型,并根据新的患者数据对其进行了重新训练——这是避免数据漂移的常见策略。然后,与直觉相反,他们发现,利用模型帮助过的患者数据重新训练出的模型,可能会低估死亡风险,并且模型的特异性骤降至 39%。Vaid说:“这太大了,意味着一旦你重新训练你的模型,它实际上就没用了。

在另外两种情况下,急性肾损伤预测因子和死亡率预测因子一起使用。当肾脏模型的预测帮助患者避免急性肾损伤时,它也降低了死亡率——因此当后来再使用这些数据创建死亡率预测因子时,其特异性就受到了影响。当两个模型同时部署时,每个模型各自所驱动的医疗保健变化都会使其他模型的预测失效。

Vaid 表示,他与声称已同时部署 15 或 20 个模型的卫生系统进行了交谈。他表示,这会导致一些可怕的错误,卫生系统使用预测模型的时间越长,而不考虑性能下降的反馈循环,它们的可靠性就越低,这就像一颗定时炸弹。

范德比尔特大学医学中心生物医学信息学教授 Sharon Davis 表示:“我们早就意识到,影响患者预后和 EHR 数据下游反馈的成功实施,需要新的方法来更新模型。” “AI工具按顺序或者同时部署的交互效果,对于需要创新解决方案的模型管理者来说,这是另一个复杂的问题。”

资深作者、西奈山数据驱动和数字医学部门的系统主管Girish Nadkarni表示,虽然许多卫生系统都在思考如何管理数据漂移等问题,但还没有人想过如何管理这么多模型同时运行的性能,并且连续几代的患者数据都受到影响,在没有适当监控、适当测试、适当验证系统的情况下引入了一堆模型,所有这些模型都在相互作用,并且影响临床医生和患者。

加州大学伯克利分校和加州大学旧金山分校计算精准健康助理教授Adam Yala称,这项研究引起了临床界的注意。“这是一个被严重低估的问题,我们目前的最佳实践、模型监控、监管实践,以及我们构建的工具,都没有解决这个问题。”

作者承认,真实世界的性能下降可能与他们的模拟有所不同,上述模拟是基于西奈山和贝斯以色列女执事医疗中心的130000名ICU住院患者进行的。他们必须猜测卫生系统内的模型依从性是什么样的,以及临床干预措施在减少肾脏损伤和死亡方面的效果如何。

Yala说:“一定是存在局限性的,因为干预措施是模拟的,但这不是重点,重点是表明存在这样一个真实的现象,我们所做的任何事情目前都无法解决解决这个问题。”

为了在模型的性能开始受到影响时捕捉到它们,卫生系统必须主动跟踪各类指标,但许多系统并没有这样做。Robinson说:“机构可能会为了资金或噱头来创建、部署模型,但是后续观察这些模型随着随着时间的推移性能表现如何,这类工作却没有那么令人兴奋。”

西奈山的研究表明,即使监测发现模型的性能下降,也很难纠正这种数据污染,因为再次训练并不能恢复模型的性能。当卫生系统训练新模型或重新训练旧模型时,他们需要确保使用的患者数据没有被先前AI工具的实施所破坏,这意味着他们必须更加严格地跟踪医生何时以及如何使用AI预测来做出临床决策。

Robinson和他的论文合著者认为,采用新的变量来重新训练模型可能会有所帮助。Vaid则表示,需要制定相关的法规对此进行监管。

今年3月,FDA发布了指导草案,试图解决临床AI性能随着时间的推移而下降的现实,为开发者提供了一个以预定方式更新模型的框架,而不需要机构对每次更改进行审查。但新的研究表明,“变更控制计划”中的步骤,包括模型再训练,仍然不应该随意地实施。

Nadkarni说:“还需要深入考虑。FDA的计划目前包括再培训、评估和更新,但在不考虑预测性能、干预效果和依从性的情况下大规模实施这些计划实际上可能会使问题变得更糟。”

随着许多卫生系统继续推迟对现有人工智能模型的评估,Robinson指出,这些问题扩展到由大型语言模型支持的下一代临床工具。随着时间的推移,接受AI生成输出训练的大模型的表现越来越差。“随着放射学报告、病理学报告甚至临床记录越来越多地由大模型构建,未来的迭代将接受这些数据的训练,而且可能会产生意想不到的后果。

Vaid 说得更简单——我们生活在一个模型吞噬模型的世界。

*本文编译自STAT

临床AI 大模型预测

关注大健康Pai 官方微信:djkpai我们将定期推送医健科技产业最新资讯