金桔
金币
威望
贡献
回帖 0
精华
在线时间 小时
“大数据”作为时下最火的词汇,随之而来的数据分析、数据挖掘等围绕大数据的技术逐渐成为研究的焦点。早在2012年3月22日,奥巴马就宣布美国政府五大部门投资2亿美元启动“大数据研究和发展计划(Big Data Research and Development Initiative),欲大力推动大数据相关的收集、储存、保留、管理、分析和共享海量数据技术研究,以提高美国的科研、教育与国家安全能力。
而大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有特定意义的数据进行专业化处理。从某种程度上说,大数据是数据分析的前沿技术,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据技术是从各种各样类型的数据中,快速获得有价值信息的能力。对于大数据时代,目前通常认为有下述四大基本特征,称为“四V”特征:第一,数据规模大(Volume),可称海量;第二,数据类型多样(Variety);第三,数据价值(Value)高;第四,要求处理速度(Velocity)快。这些特性使得大数据区别于传统的数据概念。大数据的概念与“海量数据”不同,后者只强调数据的量,而大数据不仅用来描述大量的数据,还更进一步指出数据的复杂形式、数据的快速时间特性以及对数据的分析、处理等专业化处理,最终获得有价值信息的能力。
一、检验医学的大数据特征
检验科作为医院里最重要的医技部门之一,检验信息系统(Laboratory Information system, LIS)已经成为医院管理信息系统中的重要组成部分。LIS中的检验数据主要包括申请信息(病人基本信息,申请项目信息)、报告信息(结果信息)、其他信息(质控信息等)。LIS的作用是将患者标本在实验仪器检验后获得的数据进行处理,生成一份检验报告,再通过院内网络存储在医院数据库中,使医生能够方便、及时地看到患者的检验结果。同时医生要对检验结果进行全面的分析,作为下一步诊疗的依据。检验医学数据有以下特点。
首先,检验医学数据体量巨大,在病人住院过程中会产生大量的检验信息和其它与病人相关的数据,整个医院的检验数据更是一个海量概念,一个拥有2000张病床的医院,每年至少产生3000万条检验项目。
其次,检验医学数据类型繁多,由于医学数据库本身就较为庞大,再加上医学信息的复杂性与多样性等因素的影响,与日常数据的处理分析相比,医学数据分析将会更为复杂,其分析难度之大是可想而知的。在检验医学中,常规检验指标的数据一般为文本,较容易处理。但形态学检验,如微生物形态及骨髓细胞学的图片数据、自身抗体等免疫荧光的图像数据、寄生虫检验中的视频数据、血糖血脂等指标的动态监测数据等,出现越来越多的半结构化和非结构化数据信息。而流式细胞仪的数据显示方式甚至包括单参数直方图、二维点图、二维等高图、假三维图和列表模式等多种格式的复合数据。
第三,检验医学数据作为临床医生的重要的辅助手段,甚至骨髓细胞学、病理学及微生物学结果等具有诊断意义的结果,其价值之高不言而喻。
第四,检验医学数据处理速度快,如全自动快速微生物质谱检测系统(MS)等质谱技术,将标本板放入MS仪器,几分钟内即可显示鉴定结果。而高分辨率和高灵敏度的质谱信号,又使得质谱图的信息量巨大,数据流往往为高速实时数据流,而且往往需要快速、持续的实时处理。
目前检验信息系统尚未开发其所在辅助诊断方面所具有的重大作用。检验信息系统的巨大潜力尚未被开发,被汇总和统计的数据没有得到进一步的挖掘和利用,隐藏在数据里面的有价值的信息没有充分的发挥其功效,临床诊断得不到有效信息的支持。尤其针对上述一些复杂的医疗数据,特别对于一些毫无数据特征,无规律科学的数据,传统的数据统计分析方法已经不再适用,而数据挖掘技术是一种有效的分析方法,具有十分重要的作用。现阶段,在数据挖掘技术的广泛应用之后,检验医学领域的学者正对此进行深入的研究。
二、数据挖掘技术简述
数据库技术的发展解决了海量的医学数据的存储和数据检索的效率问题,如何充分利用这些宝贵的医学信息资源来为疾病的诊断和治疗提供科学的决策,促进医学研究,已成为人们关注的焦点。数据挖掘(Data Mining, DM) 是近几年才发展起来的信息处理技术,它是从大量数据中提取出可信的、新颖的、有效的并最终能被人理解的模式的处理过程,涉及数据库、人工智能、统计学、模式识别、可视化技术、并行计算等众多领域知识。将数据挖掘技术应用到医学信息数据库中,可以发现其中的精细的医学诊断规则和模式,在对疾病重新分类的基础上,对具有相同病因、共同发病机制的患者亚群实现精准的诊断、评估、预测、治疗和预防,辅助患者恢复健康,实现患者的价值最大化。这是精准医学的精髓。
1. 数据挖掘的分析方法
数据挖掘根据不同的任务要求具有不同的分析方法,可以实现不同的功能要求。其中主要可以分为六大不同的分析方法,分别是:分类( Classification )、估值(Estimation )、预言(Prediction )、相关性分组或关联规则(Affinity grouping or association rules )、聚集(Clustering )、描述和可视化(Description and Visualization),包括文本数据挖掘。WEB数据挖掘、图形图像数据挖掘、视频和音频数据挖掘。数据挖掘通过不同的分析方法可以实现强大的功能。
2. 数据挖掘的知识类型
数据挖掘是通过在大型的数据库中根据自己的需要筛选有用的信息,其主要的目的就是发现知识,这种系统中的表现形式具有多样化的特点,通过采用特定的挖掘方法进行分析,掌握数据挖掘系统的固有特征,明确其所能发现知识的种类。通过比较分析,数据挖掘系统的知识类型主要可以分为以下几大类:广义型知识(Generalization)、分类知识(Classification)、聚类知识(Clustering)、差异型知识(Discrimination)、关联型知识(Association)、序贯模式(Sequential patterns)、情节知识(Episodes)、预测型知识((Prediction)、演化型知识((Evolution)、偏差知识(Deviation)。
3. 数据挖掘的任务及方法
根据挖掘任务可以分为:分类或预测模型发现、数据总结与聚类发现、关联规则发现、序列模式发现、相似模式发现、混沌模式发现、依赖关系或依赖模型发现、异常和趋势发现等。
数据挖掘的方法根据任务的不同可以选择合适的方法,目前数据挖掘的方法主要可以分为基于统计学的挖掘方法、基于神经网络和机器学习的数据挖掘方法、数据库方法等。基于统计学的数据挖掘方法建立在统计学知识的基础上,通过统计学的回归分析和判据分析等多种专业知识完成数据挖掘的任务。基于神经网络和机器学习的数据挖掘方法是一种智能化的数据分析技术,通过自适应的数据分析技术,进行训练和学习满足多种数据挖掘任务的需要。神经网络技术可以细致的划分为前神经网络和自组织神经网络。
三、数据挖掘在检验医学中的应用
随着医疗检验手段的飞速发展,经过多年的医疗系统信息化建设,检验信息系统已经积累和沉淀了海量的病人检验数据,能否从这些海量数据中挖掘对医生、病人和检验技师的有价值的参考信息,能否利用这些参考信息给未来病人提供有价值的参考呢?能否根据这些历史数据,分析出某些疾病跟某些因素有关呢?譬如饮食结构、地区分布、男女特征和年龄段分析。笔者认为通过数据挖掘技术可以实现以上需求。
(1)疾病诊断:正确的诊断对于指导病人的用药及康复显然是重要的,在临床中有些疾病错综复杂,数据挖掘的有关分类分析可以应用于疾病的诊断。粗糙集理论、人工神经网络、模糊逻辑分析在疾病诊断方面是有效的。现阶段,在数据挖掘技术的广泛应用之后,已有学者探索将LIS的数据应用于辅助诊断。耿中泽利用决策树和模糊聚类分析两种数据挖掘技术,尝试实现检验医学计算机辅助诊断,并由此得出应用的一般模式。
(2)疾病相关因素分析:在LIS数据库中有大量的关于病人的检验结果和病人的个人信息,包括年龄、性别、诊断、职业、类别等,对数据库中的信息进行关联规则分析可以发现有意义的关系及模式,某种疾病的相关发病危险因素分析可以指导患者如何预防该疾病。王专等对心脑血管疾病生化检验进行数据挖掘,发现了有意义的关系及模式。郑旅芳利用人工神经网络(ArtificialNeuralNetwork,ANN)对胃肠肿瘤标志物进行数据挖掘,发现对多项检验项目分析具有更高的诊断效率,可以对诊断大肠癌进行指导。Ramezankhani.A等采用关联规则挖掘技术确定2型糖尿病的发病率模式。
(3)在检验医学图像中的应用:检验医学领域中越来越多的形态学检验,应用图像作为疾病诊断的工具,如骨髓细胞学及微生物涂片的图片数据、自身抗体等免疫荧光的图像数据等,数据挖掘可以应用于图像的分析。但目前未见在检验医学中形态学检验上的应用报道。
(4)在DNA相关检验项目中的应用:如DNA序列分析可用非线性相关统计法—AMI(average mutual information)。另外对DNA序列间相似搜索与比较(对分别来自带病和健康组织的基因序列,进行比较以识别两类基因间的差异),可以认为是导至疾病的基因因素检验。王洪波等提出了基于流形学习的DNA序列数据挖掘方法,不但平均识别率高,而且计算时间相对较少。
(5)在医学其他方面的应用:数据挖掘还可应用于寄生虫检验中的视频数据、血糖血脂等指标的动态监测数据等半结构化和非结构化数据信息分析。流式细胞仪的数据的单参数直方图、二维点图、二维等高图、假三维图和列表模式等数据也可用数据挖掘来分析。还有在医学其他方面的应用:Shah.BR等认为数据挖掘已被应用于糖尿病临床研究的许多方面,包括经典的流行病学、效能研究、人口健康与卫生服务研究等。Sung SF等等利用数据挖掘技术开发了一个脑卒中管理软件,用于分析卒中预后的严重程度。
四、小结
尽管检验医学的数据极为丰富,但运用数据挖掘技术分析和处理这些数据资源的研究,在我国尚处于起步阶段。目前检验医师工作难于开展的关键问题,是没有对大量的检验数据进行规范化和系统化的挖掘与总结。人体成分错综复杂且瞬时变化,加上检测误差等等因素使得检验结果呈现出统计分布特点,因此检验结果对于疾病或健康状态的表征不如影像检查那样直观,如果不能正确分析则得不到病人或临床满意的认同。数据挖掘可以根据检验结果给医生、病人、检验技师提供可疑病情诊断参考,也可以给医疗杂志、国民健康提供经过挖掘分析的生活指标指导。在互联网、HIS和LIS基本普及的信息时代,将临床信息、检验信息和患者信息联系起来,对本身具有统计分布属性的检验结果进行数据挖掘,提炼成为有临床价值的重要信息,是检验医学未来临床应用的关键技术。
来源:检验医学网 作者: 陆军总医院检验科 刘杰
楼主热帖