案例:华西医院肿瘤专科临床科研智能大数据平台

肿瘤专科临床科研智能大数据平台围绕特定疾病继续建设科研专病数据库的基础平台。针对肺癌疾病特征,构建具有华西特色的疾病科研模型和自动化解析模型,有效贴合华西医院资深的临床数据特征,完成临床数据的多学科集成与内容解析,将多模态的、异源异构的临床数据转化为有效的、结构化的、高质量的科研数据。

作者: 本站编辑 来源: 《大数据标准化白皮书 (2020 版)》 2020-09-24 16:34:51

>>>相关阅读:

大数据标准化白皮书:全面解析医疗健康领域大数据应用及标准化建设


1、项目背景


现代医学已进行循证时代,基于严谨的科学研究过程产生的医学证据是优化和改良当前医疗决策的最优解之一。多年来医疗机构通过医疗信息化系统沉淀了海量的诊疗数据,这些数据是开展权威的医学科研,辅助诊疗决策优化,协助医院高效管理的重要支撑,具有非常高的应用价值。但受限于技术的瓶颈和高效解决方案的缺乏,这一海量的数据资产未被充分的挖掘和应用。华西医院通过建设智能大数据平台,完成全周期全维度全模态病患数据采集,实现临床业务数据向标准化科研数据的智能转化、统一存储、处理、分析。该平台支持现有以及未来产生的各类医疗数据,包括文本数据,影像数据,基因组学数据等,并通过建立相关疾病专科数据标准,基于相应标准建立疾病专科患者诊疗模型,疾病专科疾病模型,形成相对应疾病的单病种库。


2、平台标准化研究方案及应用体系建设


肿瘤专科临床科研智能大数据平台建设的核心目的是对数据的分析利用,大量低质量的数据很难支撑深层次的临床科研应用。因此,系统建设之初规划、建设统一的规范术语标准体系。系统建设参考并遵循了《医院信息系统基本功能规范》、《电子病历系统功能应用水平分级评价方法及标准》、《电子病历共享文档规范》、《关于促进和规范健康医疗大数据应用发展的指导意见》、《医院信息安全等级评测规范》、《计算机软件工程规范》以及国际、国内相关标准 ICD、MeSH、LOINC、DICOM3.0、HL7、IHE、电子病历基本数据集等。项目建立遵循以上规范的医学术语标准体系,借鉴国际医疗信息化建设经验,优先采纳国际、国内、行业及医院标准,通过规范的术语管理标准体系,确保采集临床数据的质量,为科研数据的分析、挖掘提供支持。


肿瘤专科临床科研智能大数据平台围绕特定疾病继续建设科研专病数据库的基础平台。针对肺癌疾病特征,构建具有华西特色的疾病科研模型和自动化解析模型,有效贴合华西医院资深的临床数据特征,完成临床数据的多学科集成与内容解析,将多模态的、异源异构的临床数据转化为有效的、结构化的、高质量的科研数据。


在平台上提供多种面向科研的具体应用,支持临床研究课题中肺癌相关患者的队列建设、支持大数据回顾性临床研究、支持大数据横断面研究、支持基于临床数据的人工智能辅助诊断、临床辅助决策、疾病预测等创新课题的研究。完成从数据集成、数据治理到科研支撑、临床应用的闭环支撑体系。


1.png

科研平台架构图


3、数据治理标准研究的创新点


(1)多模态数据处理引擎


通过依图 YT-Magic Box 将数据对接集成后接入平台的自由文本、影像数据及语音类数据,通过自然语言处理、影像识别、语音识别技术进行信息提取与处理。通过前沿的人工智能深度学习技术,结合医学术语库、知识图谱完成对临床自由文本数据的后结构化处理和标准化处理,同时对影像图谱进行自动化的病灶信息提取与病灶信息结构化处理,整合文本、影像、语音等多模态的医疗数据,为多种应用模型进行全面的信息解析。


(2)智能数据治理


按照互联互通标准化成熟度、电子病历系统应用水平分级评价等相关规范,制定符合医院数据利用的标准规范。将医院 HIS、LIS、EMR、PACS 等系统原始数据通过 ETL 技术实现多学科多系统的临床数据采集和汇总。


制定数据清洗规则,包括非空检验、主键重复、非法代码清洗、非法值清洗、数据格式检验、记录数检验。对于空缺值、离群值和不一致等脏数据,采用人工检测、聚类、分类、关联规则等方法实现数据清洗。将相同的患者信息合并,对患者进行主索引处理。最终,基于数据清洗等技术完成患者的目标数据识别、数据的跨系统映射、关联、患者主索引识别等数据治理。由于临床数据的不规范性、随意性等特点,需要对数据进行标准化处理。


YT-Health Brain 系统参照国内外相关医学数据行业标准,无论医生书写的是标准词汇或非标词汇,均可通过平台转换,充分利用数据。对于较复杂的文本,通过自然语言处理技术和知识图谱,分析文本的隐含语义与上下文结构关系,实体识别、关系构建、医学知识库,进行模型适配,数据入组、模型比对、适配调试、结果比对和模型优化。借助人工+机器标注,发现更多医疗语义规则。最终,形成知识图谱构建推荐引擎、自主学习引擎、医学术语标注化配置引擎,基于自然语言处理、医学知识图谱、机器学习等 AI 技术完成各类临床文本数据的结构化、标准化和归一处理。


自主研发基于深度神经网络的影像结构化提取模型,实现医学影像数据降维与结构化,覆盖病灶类型、病灶大小、解剖学位置、影像学征象等影像诊断的核心内容,自动实现历史影像对比,为临床研究提供全维度数据。最终完成院级科研平台的搭建,并完成全院诊治过的肺癌患者数据的治理工作,转化为可以支撑癌症相关临床研究的单病种科研平台;在平台上提供数据筛选、数据导出、数据可视化统计、数据建模分析、数据质控等一系列组件。


微信截图_20200924163351.png

智能数据治理图


依图智能质控 YT QA-Keeper 系统参照了医疗行业数据治理的基础标准,旨在结合通用模型标准,定义质量标准,面向通用数据产生结果,保证从原始数据到通用数据生产过程及结果的质量控制。智能质控主要包括制定数据清洗流程、流程控制、清洗质量控制、清洗过程管理等。通过规范流程和规则库,基于流程引擎构建统一可配置的数据转换、清洗、比对、关联、融合等加工处理过程。通过对异构异源海量离散的数据资源加工生产,形成全链路多级质控,保证数据完整性、准确性、唯一性、一致性、及时性。


4、标准应用效果及意义


智能单病种数据库建设完成后,实现万量级数据 AI 自动化提取入库少于1小时,将数据提取精度提升至 99.3%。以肺癌为例,成为国内首个含临床、影像、病理等多维度指标、数据全结构化的顶级智能肺癌科研病种库,为华西医院肺癌诊治提供大数据决策支撑;促进科研产出与成果转化应用,稳步提升华西医院的肺癌诊治水平。通过对该库的多中心运营,学科影响力进一步扩大,多中心学科建设与运营成本也将显著下降。同时,通过本项目研制肺癌人工智能辅助诊断标准,来引导行业发展、促进临床应用,提升医疗综合诊疗能力。


华西医院 肿瘤专科 智能大数据平台

关注大健康Pai 官方微信:djkpai我们将定期推送医健科技产业最新资讯