6月末,借助最新大数据技术,继城市预测、景点预测、高考预测和世界杯预测之后,百度推出疾病预测,将大数据的“触角”向医疗领域延伸。对此,记者采访了百度的相关负责人,并获得百度的独家回复。
百度预测的新功能“疾病预测”,基于大数据积累和智能分析,能够为用户提供流感、肝炎、肺结核和性病这四种传染病的趋势预测,帮助用户提早进行预防。
据了解,中国疾病预防控制中心也为该产品提供了相关疾病监测数据。
此外,百度疾病预测的预测范围也不仅仅局限于大城市,而是覆盖到了区县和商圈。在数据模型方面,其针对每个城市分别建模,扩大数据基础和精准性来保证预测的准确性。
目前,不少业内人士对这样的大数据预测疾病心里也没有底,“我觉得这个可信度大概可以打70分吧”东软望海科技有限公司总裁焦桐如是对记者说。在他看来,目前大数据监测及分析尚未完全成熟,在分析建模上还有一定的发展空间。但是他也毫不掩饰大数据预测疾病的前景,“这应该是一个必然的趋势”。
卫生经济学家陈茁对媒体说,他对大数据预测疾病持乐观态度,“如果方法得当,大数据对疾病预测依旧有巨大的潜能,还可以在疾病监测防控之外发挥难以比拟的作用。”
而大数据时代下的今天,大数据对疾病监测的准确性到底如何,目前谁也不清楚。还是需要百度“疾病预测”的亲身检验。
什么是百度疾病预测?
“流行病的发生和传播有一定的规律性,与气温变化、环境指数、人口流动等因素密切相关。每天网民在百度搜索大量流行病相关信息,汇聚起来就有了统计规律,经过一段时间的积累,可以形成一个个预测模型,预测未来疾病的活跃指数。”对于预测原理,百度相关负责人如此阐释道。
目前,百度疾病预测可提供流感、肝炎、肺结核和性病四种疾病的预测,并可对过去30天及未来七天的疾病变化作出预判。“活跃度”用来反映所选地域该疾病的活跃程度,同时也可通过1~99999的活跃指数反映。用户可以看到全国或者省某疾病指数排名前十的城市、区县,以及该疾病相关医院的搜索排行。
“对于百度疾病预测这样针对全国范围的产品来说,可靠性、准确性是我们非常重视的。因此,我们会从统计的角度来验证数据的正确性,以机器提供的数据为基础,加入对异常数据的监控和分析,以确保数据的可靠性。”
根据北京大学市场与媒介研究中心发布的2014年4月《搜索市场研究报告》中的数据,百度以市场份额82.7%在桌面端保持强势领先地位。
Google流感预测的“升级版”?
因为功能相近,百度疾病预测一经推出,便令人联想到早在2008年推出的Google流感趋势预测(GoogleFlu Trends,简称“GFT”)。
当年在H1N1爆发几周前,Google的工程师们在《Nature》上发表论文介绍GFT,并成功预测了H1N1在全美范围的传播,令世界为之一振。然而,在此之后,有研究发现,GFT会高估与流感相关的就医量,在这类数据最有用的流感季节高峰期尤其预测不准确,被《Scientists》杂志认为被大数据浮夸(Big Data Hubris)的算法所误导。也就是说,Google的流感疾病预测不再那么精准。
相较于GFT,百度疾病预测已经覆盖提供全国331个地级市,2870个区县,某些城市甚至已经细化到具体的商圈,“未来甚至可以更加细化到个人粒度”,百度相关负责人表示。此外,GFT目前提供了流感和登革热的预测,而百度的疾病预测系统涵盖流感、肝炎、肺结核和性病四种疾病。而据其网站说明,未来还会增加更多的常见传染病和慢性病。
谈及百度疾病预测的产品形态和Google的差异。百度相关负责人补充,Google主要使用query数据,在此基础上,百度增加了微博、天气、人群迁徙等数据一并加入预测因素。“此外,Google用的query数据依赖于Google Correlation产品,而百度则是直接从原始日志中进行清洗、消岐、扩展和分析,在数据上做得更细致些,也由此可以提供更加有效的判断。”
不只是“一堆数据”
在百度疾病预测的介绍版块中,特别向中国疾病预防控制中心(以下简称CDC)表示了感谢。“在构建流感预测模型的过程中,中国疾病预防控制中心的流感监测结果提供了一定的参考作用。”
实际上,百度疾病预测参考了CDC2006年1月至2014年6月的流感监测周报数据,并且会根据CDC公布的数据定期来更新。
“百度的结果算法在模型搭建上是综合参考多维度数据结构,其中我们在与CDC数据合作上,不仅是数据互通,同时也会与他们的专家进行产品交流,最终的预测结果主要还是依靠我们所建立的疾病预测模型来完成。”百度相关负责人表示,疾病预测的模型数据搭建于疾病人数自身的统计规律性以及疾病人数与其它相关数据的相关性。
一方面,通过历史数据挖掘规律来预测未来的趋势,譬如流感或者手足口等疾病具有季节性周期规律,或者近年来艾滋病整体上具有一个上升趋势等;另一方面,数据之间存在相关关系,这也会对未来疾病趋势有所影响。“比如搜‘感冒药’、‘三九感冒灵’词的次数与感冒人数之间就具有较强的相关性,在微博上提到手足口病的次数与手足口病蔓延程度有一定的相关性,异常的天气变化与感冒人数也有一定的相关性等。”百度相关负责人解释,“我们会通过分析百度的搜索query、微博内容、天气变化、人群迁徙等数据与疾病人数的相关性,建立机器学习模型,利用这些数据来预测疾病的人数。
大数据如何落地?
事实上,百度的“野心”远不止简单的疾病预测,让“大数据落地”是如今互联网公司不得不做出的改进,而百度也将在医疗领域深化定制化的健康信息服务。
为了让疾病预测不只是一堆数据的堆积,而成为“中国人的健康图谱,老百姓实用的生活助手”,百度正在对此产品进行优化,希望继续增加病种,以覆盖常见传染病和慢性病。
此外,“除了时空数据,我们还会增加天气、环境污染、用户属性数据,希望能够针对不同用户,提供个性化的防病、健康信息推送。”百度相关负责人透漏,百度疾病预测还将提供每日疾病指数等细化数据,日后有望增加个人健康顾问、预防治疗措施、求医用药指导等功能。
本文转自财新LIFE,作者沉滋 。
|