健康医疗大数据分析方法体系框架及应用研究
为合理有效地进行数据分析及应用,现急需建立一套完整的健康医疗大数据分析方法理论体系框架,如何将数据分析方法应用到实践中已经成为健康医疗大数据分析研究中十分重要的问题。
围绕健康医疗大数据分析方法问题,系统梳理了健康医疗大数据在各个应用领域中的数据分析方法,从影响因素分析、流程管理、结果评价、预测判断、决策预防5个层面对医疗服务、公共卫生、药品管理、医疗保障、卫生管理、产业发展六大应用领域进行划分,按照目标层、数据类型层、分析方法及工具层和应用层4个部分构建健康医疗大数据分析方法体系框架,并结合应用实例为健康医疗大数据应用发展提供参考依据。
健康医疗大数据是我国一项重要的基础战略资源,数据的爆炸式增长促进了健康医疗大数据分析和知识发现的研究。为合理有效地进行数据分析及应用,现急需建立一套完整的健康医疗大数据分析方法理论体系框架,如何将数据分析方法应用到实践中已经成为健康医疗大数据分析研究中十分重要的问题。
健康医疗大数据分析方法体系框架
基于本课题调查分析各应用领域中所使用的典型算法进行归纳总结,结合项目实践,现提出健康医疗大数据分析方法体系框架模型,由目标层、类型层、分析方法及工具层、应用层四部分组成,如图1所示。
目标层,对健康医疗大数据进行目标性区分,根据数据的复杂程度和价值两个维度,将目标层分成描述型分析、诊断型分析、预测型分析和指令型分析四个层面。
类型层是对数据类型进行划分,包括定性数据和定量数据,并进一步细分,而后又可从线性、非线性以及结构化、非结构化四个方面进行数据类的分类。
分析方法及工具层分为三部分:①分析方法层,根据明确数据特征的健康医疗大数据选择相应的分析方法类别,包括分类、回归、聚类、关联规则、神经网络、Web数据挖掘、深度学习、集成算法等;②典型算法层,根据实际情况选择具体的分析算法进行分析,包括决策树、支持向量机等;③分析工具层,依据相应需求选择适合的分析工具进行数据结果可视化展示,包括Excel、SPSS、SAS、BMDP等。该层是将数据与应用紧密结合的重要分析层。
应用层,根据健康医疗大数据的具体应用领域进行划分,包括医疗服务、公共卫生、药品管理、医疗保障、卫生管理、产业发展这六大层面。
图1 健康医疗大数据分析方法体系框架
健康医疗大数据分析方法应用领域
通过湖北省卫生健康委课题《湖北省医疗健康大数据挖掘整合和服务管理规范研究》的调研发现,健康医疗大数据分析方法在医疗服务、公共卫生、药品管理、医疗保障、卫生管理、产业发展等应用领域均发挥着重要作用。现根据项目调研情况将健康医疗大数据在各应用中的分析过程划分成影响因素分析、流程管理、结果评价、预测判断、决策预防五个部分,利用分类、回归、聚类、关联规则、神经网络、Web数据挖掘、深度学习、集成算法等大数据分析方法,对不同应用领域的健康医疗大数据进行分析处理,健康医疗大数据分析方法应用领域如图2所示。
图2 健康医疗大数据分析方法应用领域
分析方法应用
明确健康医疗大数据分析应用领域和分析目标,将各种类型的数据处理成符合医疗卫生信息化标准的数据,采用分类、回归、聚类等方法对不同的应用目标进行优选试验样本和数据,并通过决策树、支持向量机等具体算法构建实验模型,制定具体参数,对健康医疗大数据进行预定目标具体分析,采用Excel、SPSS、BI等分析工具,以统计图、表等形式对分析结果进行可视化展示,进行数据多维分析和挖掘,对疾病发展趋势、风险评估、预测分析和规划等提供大数据依据和信息支撑。具体应用实例如下所示。
支持向量机(SVM)在高血压中医辩证中的应用 健康医疗大数据之间存在错综复杂的非线性关系,支持向量机(SVM)模型具有较强的泛化能力,适用于小样本分类及高维输入单输出的非线性回归问题。使用SVM算法进行高血压病辨证分析,根据符合高血压病诊断的419例患者资料读取数据集,以高血压病中常见的21个症状、舌苔及舌体、脉象的量化数据为输入进行特征设计,将高血压病证型作为输出,并进行归一化处理,把属性缩放到[0,1]之间。基于MATLAB环境,选取Libsvm支持向量机集成工具包,使用Python直接导入SVM模块并选择RBF核函数,使用419例样本训练,130例样本测试。构造5个2类分类器,训练得到最优参数C=2和γ=1,建立基于SVM的肾气亏虚、痰瘀互结、肝火亢盛、阴虚阳亢和其他5种证型的高血压病患者中医证候诊断模型,并用测试集和交叉验证集比较所建模型的诊断识别率。根据SVM模型测试与临床诊断结果比较结果显示,5种证型准确率均高于66%,除其他外的4种主要证型准确率均高于85%,总体准确率达到90%。说明基于SVM建模对高血压病进行中医证候诊断分析具有很高可行性,可以提高诊断准确性和及时性,在高血压病中医辅助辩证过程中具有良好的应用前景。SVM对训练样本的数目要求较低,在较小规模数据集上训练即可得到较好泛化效果,且模型清晰,便于对分类结果做出解释,但也存在一定局限性。一是对模型输入特征设计要求较高,设计者需对所研究背景有深刻认识,当特征设计不充分时模型精度较低;二是可扩展性差,同一模型无法兼容多项研究数据,需针对不同需求设计不同特征。
Apriori算法分析慢阻肺患者超限住院费用影响因素 Apriori算法使用频繁项集的先验知识,通过两阶段递推的思想来挖掘出数据间的关联规则。现使用Apriori算法研究慢性阻塞性肺疾病患者超限住院费用的影响因素,选取基本医疗保险数据库中被确诊为慢阻肺的9 199例患者资料信息进行基本统计学分析,对数据集的平均值和标准差进行计算,运用多元线性回归方法筛选住院费用的外部影响因素。选择在多元线性逐步回归分析中有意义的性别、年龄、医院级别、住院天数等影响因素作为规则前项,设置支持度为0.8%,置信度为50%,以提升度>1来衡量规则有效性。应用SPSS统计软件进行回归分析,采用Java代码实现Apriori算法构建关联规则模型,输出每一步频繁集结果,通过更换最小支持度和可信度阈值获得不同关联规则,并对关联规则进行及时调整,将强关联规则作为影响慢阻肺患者超限住院费用的主要因素,最终挖掘出4 条有意义的关联规则。结果显示,4条关联规则的提升度均大于8.2,慢阻肺患者与超限住院费用关联度较大的三个条件分别是住院天数、医院级别和年龄,其中前两者为可控因素,其中4条规则均包含住院天数,说明该因素对慢阻肺患者发生超限住院费用的影响最大。通过采取缩短住院天数,实施分级诊疗制度等有效措施,可以有效降低超限住院费用发生率,减轻慢阻肺患者的经济负担。Apriori算法采用逐层搜索压缩频繁集大小,简单易懂,对数据要求低,且扩展性较好,可用于并行计算。但因其会多次扫描对数据库,导致运算时间增加,I/O负荷很大,数据量大时更加显著;同时会因循环产生大量组合候选项集,容易出现假性关联。
结语
结合实际情况,构建健康医疗大数据分析方法体系框架,加强对健康医疗大数据的分析应用,分析健康医疗康大数据具体应用领域,结合分析方法实现数据价值最大化,充分发挥健康医疗大数据这一基础性战略性的资源作用,从而大力推进和发展健康医疗大数据分析应用工作。
【引用本文:章雨晨 陈敏.华中科技大学同济医学院医药卫生管理学院[J]. 中国数字医学,2021,16(1)104-106.】

关注大健康Pai 官方微信:djkpai我们将定期推送医健科技产业最新资讯