俞声:医学信息学总体来讲是个新兴学科。它其实也有好几十年的历史了,但是是这几年才渐渐进入大家的视野的,这和医院病历的电子化,以及数据科学的兴起都有关系。在过去,医学信息学研究的重点很多在数据库的设计,术语系统,编码系统等等。而现在人工智能和数据科学的性质越来越浓。医学信息学的研究范围也变得很广,除了核心的医学和医疗外,一些社会科学性质的研究,比如利用信息化技术和数据科学手段研究弱势群体的医疗状况,也都属于医学信息学的研究范围。具体了解医学信息学在干什么可以翻翻医学信息学顶刊Journal of the American Medical Informatics Association(简称JAMIA),扫一眼目录就能有所了解。偏技术的还推荐看看Journal of Biomedical Informatics(简称JBI),里面有很多更适合统计方向的人看的文章。
统计学在医学信息学里是有很大用武之地的。医学信息学是个典型的交叉科学,用统计、计算机的方法,利用大规模数据,解决医学的问题。可能因为历史原因,做医学信息学方向的统计学家目前并不多。但是我们的一些尝试发现统计学家在这个领域很有优势,审稿人很喜欢从统计角度的建模。我个人觉得比较“漂亮”的几个成果也恰恰都是统计学模型,比如高通量表型判别最终是用的混合正态模型解决的,无监督多粒度分词用的是谱聚类方法,病历结构自动分解是隐马尔可夫模型等等。所以我推荐统计学家都来探索这个领域。另外统计学家,以及计算机科学家也是一样,需要避免认为医学信息学只是统计方法和机器学习方法的应用,而应该是在了解行业、了解数据以及相应的条件制约与困难之后,引入各自领域的方法,有针对性地建模。董家鸿院士曾对某些学者有过批评,叫“拿着锤子找钉子”。我们需要避免做这样的研究
统计之都:您认为医学信息学今后数十年的发展前景如何?医学信息学的发展会为我们带来哪些好处?
俞声:医学信息学未来几十年的发展一定是非常好的。测序技术带来了生物信息学的大发展,而病历的电子化也会带来医学信息学的大发展。未来医学信息学很可能会像生物信息学一样成为生物统计的一个新的主要研究方向。事实上我个人觉得医学信息学的规模会超过生物信息学,因为医疗是人类社会很重要的一个活动,不管是社会意义上还是经济意义上。医学涉及到的数据类型也比组学数据丰富,因此也会带来更多的研究问题。目前美国许多顶尖大学都相继设立生物医学信息学系,哈佛是2015年设立的,算是比较新的。我希望国内能赶上这波趋势。
统计之都:国内外医学信息学的发展现状是怎样的?对于该领域在国内的发展,您有何建议?
俞声:国内与国外相比,技术水平差不多,但是规模上小很多,我们做这个方向的人还太少。另外国内的一大劣势是基础设施的历史欠账。最典型的例子是术语系统。在美国做英语的电子病历分析其实不是太难,因为有一个超大型的术语数据库叫the Unified Medical Language System(简称UMLS)。这个数据库美国政府建设维护了三十多年了,是开放的,里面有几百万个医学相关概念,以及每个概念的各种名称,同义词,还有缩写。所以处理英文病历我只要做字符串匹配就好了。但是中文没有类似UMLS的东西,所以中文病历处理就会变得困难得多。所以我这几年的主要工作都是在做基础设施建设,扫平历史欠账。有了这个基础,以后才能发展好医学人工智能。
对于医学信息学在国内的发展,我猜测有一个阻碍可能是我们的教师评价体系。我们一般每一个系都会有一个可接受的期刊列表,老师发这个列表里的期刊才算考核成绩,否则不算。对于医学信息学这样的新兴学科,现有院系几乎没有将它的期刊纳入列表的,这样年轻老师就不敢进入这个学科。我比较幸运的是清华统计学研究中心的领导很开明,把JAMIA给纳入了A刊,所以我能继续做这个学科,但是其它系和其它学校就不这么乐观了。所以我想国内要想大力发展医学信息学,有必要在教师的评价方式上做些灵活调整,至少是把相应的期刊纳入接受范围。
统计之都:您和国内多家医院都有合作,根据您的观察,智能医疗在产业界的落地成效如何?
俞声:目前智能医疗相关创业公司很多,也花了很大精力去推广他们的产品。比如很多医院都在尝试上“辅助智能诊断系统”,做得好的话可以极大提高就医效率,节省医疗资源。目前的落地情况是速度很快,成效不足。速度快,是因为创业公司需要快速去占领市场,怕晚了赶不上趟。成效不足,是因为智能诊断本身难度很大,不可能一蹴而就,需要慢工出细活。仅从数据的视角来看,就有三大难点:1)数据收集难;2)数据规范难;3)数据建模难。
数据收集难,是因为医疗数据涉及患者的健康、隐私,如何合理合法收集、使用这些数据是全世界的难题。现实层面还存在相关领导因为缺少技术背景,无法判断哪些数据合作是安全的,因此抱着“不出事”的心态,对一切数据合作层层防范。而没有数据,就很难产生有用的成果。数据规范难,包括两个层面,首先,各家医院使用的医疗设备差别很大,同样的读数背后的含义可能不一样,而且出的报告、图纸规范也不统一;第二,是整理这些材料耗时耗力,而且需要非常专业的人去干,时间和资金成本很大。我们组内也在研究许多自动的数据规范化方法。数据建模难在不同的问题里有不同的体现。比如对于诊断模型,同样的症状在不同的地区的病因可能完全不一样,因为先验分布不一样。比如一个症状,在卫生条件不好的地区可能首先会怀疑寄生虫,但在北京上海等大城市就不会首先做这种怀疑。此外还可能涉及到效费比、分级诊疗等多目标优化。因此,做出有用的能落地的智能诊疗产品无法求快,同时需要在数据获取方式上有所创新和突破。 对博士生学习的建议