文章快速检索     高级检索
  分子影像学杂志  2018, Vol. 41 Issue (2): 207-211  DOI: 10.3969/j.issn.1674-4500.2018.02.17
0

引用本文 

温丽, 蔡永铭 . 基于搜索引擎数据的流感监测预警[J]. 分子影像学杂志, 2018, 41(2): 207-211. DOI: 10.3969/j.issn.1674-4500.2018.02.17
WEN Li, CAI Yongming . Influenza surveillance and early warning system based on search engine data[J]. Journal of Molecular Imaging, 2018, 41(2): 207-211. DOI: 10.3969/j.issn.1674-4500.2018.02.17

基金项目

广东省自然科学基金(2014A030313585)

作者简介

温 丽,硕士研究生,E-mail: wenli8023sjh@163.com

通信作者

蔡永铭,博士,教授,E-mail: cym@gdpu.edu.cn

文章历史

收稿日期:2018-01-24
基于搜索引擎数据的流感监测预警
温丽, 蔡永铭     
广东药科大学公共卫生学院,广东  广州  510006
摘要:随着互联网的不断发展和网络覆盖率的提高,搜索引擎日益成为人们查询生活信息的主要渠道,搜索关键词直接地反映了查询人的意图,且搜索数据可实时统计,因此网络搜索数据成了流感监测的理想数据源。在实际应用中,结合疾病预防控制中心等官方监测数据,可实现流感等重大传染病的早期预警,及早采取相关预防措施,降低疾病传播风险,减少国家及人民的财政负担。与传统的疾病监测相比网络搜索数据具有响应快、易获取、低成本等特点,但数字化疾病监测仍然面临着如网络用户行为的不确定性、搜索关键词获取的不准确性,网络覆盖的不全面性等诸多挑战。因此,未来的相关研究应着眼于如何校正提高互联网搜索数据的准确性,探讨如何将搜索引擎数据与地理信息系统相结合,利用时空大数据进行传染病预测预警。解除数据模块间的壁垒,一面多点,多面多点的采集数据,更好的实现大数据的共享,提高数据的利用率及监测预警的准确性。
关键词:搜索引擎    大数据    流感    监测    预警    
Influenza surveillance and early warning system based on search engine data
WEN Li, CAI Yongming     
School of Public Health, Guangdong Pharmaceutical University, Guangzhou 510006, China
Abstract: With the continuous development of the Internet and improvement of the network coverage, search engine has become the main channel for information query. As query keywords directly reflect people´s intent and search data can be counted in real time, the network search data is considered the ideal data source for influenza surveillance. In the practical application, a surveillance and early warning system utilizing the search engine data and the official monitoring data, such as CDC, can perform early warning of major infectious diseases in time so as to take preventive measures, thus reducing the risk of disease transmission and the financial burden of the country and the people. Compared with the traditional disease monitor system, that based on the network search data has the characteristics of fast response, easy access, low cost and so on; however, it still faces many challenges, such as the uncertainty of the netizen’s behavior, the inaccuracy of the search keywords and the incomplete network coverage, etc. Therefore, future research should focus on improving the accuracy of Internet search data and explore the ways to use spatial and temporal data for infectious disease prediction and early warning through combining search engine data with geographic information system (GIS). Furthermore, they need to remove the barriers between data modules and collect data collectively and comprehensively, so as to realize the sharing of big data and improve the utilization of data and the accuracy of the monitoring and early warning system.
Key words: search engine     big data     influenza     monitoring     early warning    

流行性感冒(简称流感)是一种由流感病毒引起的常见急性呼吸道传染病,由于其传播范围广、速度快及社会危害大而受到特别的重视[1]。据世界卫生组织估计,每年流感的季节性流行可导致全球300~500万流感重症病例和25~50万人死亡[2]。预警是当前疫病控制中非常重要的一环[3],是在缺乏确定的因果关系和充分的剂量-反应关系证据的情况下,促进调整预防行为或者在环境威胁发生之前即采取措施的一种方法[4-5]。疾病监测预警模式的建立应该首先从监测信息做起,是了解公众需求、心理、对政策的态度以及配合情况的重要方法,对于政府部门及时调整政策、维护社会稳定等方面具有重要的参考价值[6-9]

目前,国内外对流感的监测预警普遍采用基于历史数据的流感预报系统。随着信息技术和流感监测系统的不断完善,历史数据的获取越发及时,很大程度上提高了流感预报的准确性。许多研究利用不同模型进行流感疫情的短期预测[10]。我国国家疾病预防控制中心(CDC)从2003年底开始启动国家传染病与突发公共卫生事件网络直报系统项目,于2004年1月正式运行[11]。2014年完成统一应用门户的改造[12]。截止目前,网络直报系统的覆盖率及报告率均达90%以上,传染病的平均报告时间为0.8 d。常规的流感监测包括病原学监测和流感样病例监测[13]。但中国和所有其他国家一样,都要求医生在发现新型流感病例时告知CDC,这往往会有一定时间延迟,而且CDC通常只是定期进行1次数据汇总。信息滞后对于一种飞速传播的疾病将是致命的。这种滞后导致公共卫生机构在疫情暴发的关键时期反而无所适从[14]。早期发现流感流行并迅速采取有效措施是流感防控和突发应对的关键内容[15]

1 基于搜索引擎数据在流感监测预警中的应用

随着搜索引擎日益成为人们查询生活信息的主要渠道,网络搜索数据成为了流感监测的理想数据源。流感关系到人民群众的日常健康,一旦流感暴发,互联网上的搜索量也会大幅度增加,因此,应用网络搜索词信息辅助传染病监测则可以加强目前的监测能力乃至迅速做出反应, 有助于应对传染病的暴发与流行[16]。在互联网普及的地区,健康相关的网络搜索词搜索量的动态变化有可能在一定程度上反映了该地区相关疾病流行情况和人群中发病及求医的信息[17],故搜索引擎非常适合于监测流感信息。近年的一些研究也表明互联网搜索信息有助于公共卫生和流行病监测[18-19],利用网络搜索数据监测流行性疾病是一种更快更准确且低成本的方式,它可以作为传统调查方式的辅助措施,提前对疾病做出预警,对我国及世界范围内的传染病预防控制具有重要意义[20]

1.1 国外应用现状

在美国每年大约有9000万成年人利用搜索引擎查询疾病和医疗相关问题[21],这一现实基础使得基于搜索数据的流感监测成为可能。研究首次使用网络搜索数据,利用Yahoo搜索引擎上与流感相关的若干搜索词在美国的搜索量,验证了搜索量与流感死亡率之间的相关关系[22]。2009年暴发的甲型H1N1流感,谷歌公司就是通过观察人们在网上搜索的大量记录判断出流感是从哪里传播出来的,从而使公共卫生机构的官员获得了极有价值的数据信息,并做出有针对性的行动决策,这比CDC的判断提前了1~2周[23]。该系统不仅整合了流感暴发的历史数据,更重要的是对“实时”网络流感信息进行监测,从而对流感进行“实时”预测[10]

美国哥伦比亚大学环境卫生科学系助理教授杰弗里·沙曼等利用自行研发的流感预报系统对2012~2013年流感季节全美国108座城市进行模型测试,发现能够平均提前2~4周预测60%以上城市的流感高发期。该系统结合了“谷歌流感趋势”的数据和CDC实验室检测的流感病例的报告数据,系统不仅会估算出疑似疾病可能最终变成流感的概率,还会提供流感病毒如何在大众中传播的信息。2012年11月底已开始在研究中使用这套流感预测系统。研究人员发现,随着流感季节不断推进,以及研究人员给模型提供更多数据,模型对流感高发期的预测变得越来越准确[10]

有研究在《Nature》上发表了基于Google搜索数据的流感趋势监测研究[19],他们用机器方法从5000万常用搜索词中筛选出45个最适于监测流感的关键词, 准确地预测了全美及其9个地区的流感趋势, 他们的预测比美国CDC的流感周报要提前2周左右, 该研究引起世界范围的关注。有研究采用相同的方法对瑞典的流行病进行了监测[19],不同的是他使用先验知识确定了与流感相关的20类关键词,最终模型显示只使用其中的4类即可稳定地获得准确预测。研究使用带日历效应的自回归模型改进了Google Flu Trends的预测精度[24]。有学者[25]分析了Google搜索数据与加拿大李氏杆菌病之间的关联性,结论显示搜索数据可以在联邦政府宣布李氏杆菌病暴发前1月监测到疫情。

除了流感,搜索数据在最新发生的埃博拉病毒的检测上也展示出了不凡功力。有研究利用谷歌趋势获取了2014年11月1日~12月27日埃博拉暴发期间全球对埃博拉的搜索热度[25],结果发现搜索量最高的地方和埃博拉患病数最高的西非的几个国家基本一致,并且搜索量的曲线变化特征和埃博拉的病例变化特征具有很强的相关性,在利比里亚可以达到0.7。有研究使用谷歌洞察来监测2004~2011年登革热在新加坡和曼谷的流行趋势,并选取不同模型来模拟登革热的流行趋势[26]

1.2 国内应用现状

过去十多年发生的各种大规模流行病几乎每隔一段时间就会以不同形式卷土重来一次。2013年卫生部发言人就曾提到:“中国面临传统传染病威胁持续存在、新发传染病不断出现的严峻形势。”原有监控系统和流程的卫生防疫系统已经有些力不从心、跟不上节奏[27],因此传统监测手段的补充方法一直被研究者所关注[28]。国内已有一些学者将搜索引擎数据应用在公共健康领域,进行发病数的预测和公共健康信息的获取[15]

有研究分析了互联网中文搜索词搜索情况和广东省甲型H1N1流感活动的相关性[13, 29],结果显示流感监测数据和“甲流”网络搜索情况呈正相关(r=0.914,P<0.001)。研究表明与流感有关的网络搜索情况较好地反映了流感活动水平,网络搜索数据可作为辅助流感等传染病监测的数据源。这与美国、法国、澳大利亚、新西兰等国家的研究结果一致[17, 30-33]。最后,研究还发现在流感大流行期间,网络搜索信息较常规监测更灵敏,数据获取更方便。有研究[34]用清华大学自主研发的X-GOT舆情系统进行数据智能抓取,并通过百度、谷歌等搜索引擎对数据进行补充,对 2013年3月30日~6月17日监测到的媒体报道与网络发文进行分析,结果显示舆情发展趋势与疫情变化趋势、政府新闻发布的节奏基本保持一致,且“病例”、“疫情防控”、“变异”、“活禽市场”、“病毒检测”、“疫苗研制”、“人传人”、“救治费用”是本次H7N9禽流感疫情的舆情热词。有研究基于联合国粮食及农业组织和世界动物卫生组织收集整合了2004~2009年全球高致病性禽流感病毒H5N1在家禽中的暴发数据[28],从Google Trends获取同时期的相关关键词数据,对二者的数据进行分析对比,结果显示以2004~2009年为整体,互联网数据与H5N1的相关性并不高(r=0.276),但年度数据则均表现出了较强的相关性,且在各个年份中,将官方流感监测数据提前1~4周后出现与Google Trends监测数据的相关系数最大值,可认为Google Trends数据可提前1~4周预测H5N1暴发的趋势。有研究利用逐步回归法,从94个关键词中筛选出8个来预测中国的流感,他们发现合成搜索指数与流感历史病例之间的相关性可以达到0.96,预测的平均误差小于11%[35],且搜索指数可以很好的捕捉到流感暴发的高峰期和低谷期,这使得搜索指数成为了流感活动的一个很好的风向标。也有研究从百度指数上获取了甲型H7N9的信息[36],发现除了在早期阶段外,与H7N9有关的网络信息同H7N9在中国暴发的趋势基本一致,虽然每日数据之间的相关性只有0.43,但是累积数据之间的相关性可达0.98,并且与H7N9相关的主题在不同的流行阶段都会发生变化。有研究[37]从谷歌搜索解析中获取了92个与流感密切相关的有效关键词,用主成分分析法选取7个方差贡献率最大的主成分来预测流感疫情,结果表明,网络搜索数据中包含了与流感趋势历史信息相“正交”的有效信息,这部分信息反映了流感疫情的当期变异,因而搜索数据可以弥补历史信息难以解释数据新变异的缺点。

综上所述,网络搜索数据可作为辅助流感等传染病监测的数据源,结合CDC等官方监测数据,实现流感等重大传染病的早期预警,及早采取相关预防措施,降低疾病传播风险,减少国家及人民的财政负担。

2 搜索引擎数据在流感监测预警中的优势与挑战 2.1 优势

与传统流感监测相比,网络搜索数据的优点有[13]:(1)可更早期及时地发现疫情暴发;(2)无需监测哨点支持,尤其在流感大流行期间,如果由于医护资源紧张和缺勤率激增影响了常规监测的正常运转,互联网搜索信息监测则有可能成为有效的补充[19];(3)具有传统数据无法比拟的实时性和普遍性;(4)信息往往可免费获取,成本低廉;(5)获取数据来源多样,覆盖面较全面。网络数据的调查对象是全体网民,具有超大样本,更能反映整体的属性。

2.2 挑战

互联网监测不能替代传统的传染病监测,其面临的挑战也是不容忽视的:(1)互联网搜索情况会随着流感监测信息发布,群众对流感关注度的变化而变化;(2)媒体和舆论的导向作用影响搜索行为,易使数据波动较大,高估流行水平[37-38];(3)较难在海量的互联网搜索信息中筛选搜索词和甄别真实的异常信号[34];(4)对互联网的依赖较大[39],地区经济发展水平和预警准确度有较大的关系[40],在某些互联网不发达的地区,基于地区的互联网搜索数据量较小,造成数据波动较大或持续处于低水平,无法有效的进行预警;(5)基于Google搜索引擎的后台搜索算法会根据人群的行为和过往搜索数据进行动态调整,这使得Google搜索数据在进行流感暴发监测时不能准确的反映人群的真实搜索行为,导致结果产生偏差[41]

3 总结与展望

随着互联网的快速发展和大数据时代的到来,基于网络数据的疾病监测系统已开始快速发展,与传统的疾病监测相比具有响应快、易获取、低成本等特点,但数字化疾病监测仍然面临着不少挑战,例如网络用户行为的不确定性、来自媒体和政策改变的影响以及搜索引擎公司所不断改变的算法都影响了搜索引擎数据在疾病预测上的准确性。此外,如果简单地忽略掉数字化监测中的反面数据,就很容易过高地估计算法的精确度,“N=所有”以及采样的无偏性,这些前提在绝大多数的实际情况下都是不成立的,大数据的共享也是当前亟待解决的问题。症状相似流感的叠加出现在搜索引擎数据中很难准确分辨,如果不能及时发现假象,一旦出现新发传染病的暴发,后果不堪设想。研究表明,现实世界中的数据超过80%与地理位置有关[42]。时间和空间信息对传染病的预测预警具有重要意义,因为传染病的发生、发展、时空分布与地理地貌、生态景观、人文环境有密切关系[43],特别在全球气候变化和经济全球化背景下,自然环境及人类社会活动对传染病病原体-宿主交互作用的影响越来越重要。利用时空大数据进行传染病预测预警是时间、空间信息和传染病疫情信息的多维搜索,利用时空大数据检索、处理和分析这些与空间位置有关的疫情信息是实现传染病预测预警的关键[44]。因此,未来的相关研究应着眼于如何校正提高互联网搜索数据的准确性,如通过国内生产总值、人口数等,或利用CDC公布的传统监测数据进行校正,以提高研究结果的准确性。探讨如何将搜索引擎数据与地理信息系统相结合,利用时空大数据进行传染病预测预警,其中最重要的是如何找到一个或多个研究疾病相关的特异搜索关键词,使其能够较为准确地反映疾病的发生水平且不易受到其他因素的干扰。解除数据模块间的壁垒,一面多点,多面多点的采集数据,如通过可穿戴智能医疗设备、大数据分析与移动互联网相连,所有与疾病相关的信息可自由流动、上传、分享,更好的实现大数据的共享,提高数据的利用率及监测预警的准确性。综合不同的数据智能抓取方法,不同流感间有差别地提取关键词,提高相似症状流感交错出现的辨识度,避免新病种的暴发。

有理由相信,基于引擎搜索数据必将在未来疾病监测预警中扮演重要的角色。结合网络数据和历史病例数据对疾病进行监测可以为传统的疾病监测方法提供一定的补充。数字化疾病监测已经开始暂露头角,并在未来会起着越来越大的作用。

参考文献
[1] 孙锦峰, 耿云亮, 郭奕瑞, 等. Elman神经网络与ARIMA模型对流感发病率预测效果的比较[J]. 郑州大学学报:医学版, 2013, 48(5): 584–7.
[2] Cox N. Influenza seasonality: timing and formulation of vaccines[J]. Bulletin World Health Organization, 2014, 92(5):311-3.
[3] 陈国胜, 王靖飞, 李 静, 等. 地理信息系统(GIS)进行高致病性禽流感控制中的应用[J]. 中国预防兽医学报, 2004, 15(06): 72–5.
[4] 洪荣涛, 许龙善, 严延生, 等. 试述突发公共卫生事件的监测与预警[J]. 中国公共卫生管理, 2005, 21(2): 106–8.
[5] 鹿凤苓, 王 昵, 杨其法, 等. 基层疾病监测预警模式的建立与应用[J]. 疾病监测, 2007, 22(5): 344–5, 358.
[6] 霍 飞, 高浩宇, 刘长娜, 等. 舆情监测在重大传染病预防控制工作中的应用[J]. 职业与健康, 2013, 29(23): 3205–9.
[7] 马晓薇, 刘艳慧, 袁 俊, 等. 微博与传统网络媒体对一起人禽流感疫情舆情监测特点分析[J]. 疾病监测, 2013, 28(1): 61–4. DOI:10.3784/j.issn.1003-9961.2013.1.019
[8] 刘诗洋, 王 倩, 郑秋莹. 我国突发公共卫生事件网络舆情研究现状分析[J]. 管理观察, 2014, 25(10): 98–101.
[9] 李 莉, 陈 蕾, 江 涛. 舆情监测在人感染H7N9禽流感防控中的应用及效能分析[J]. 中国公共卫生管理, 2013, 29(06): 775–6.
[10] 高云华, 王 敏. 国外流感预报系统研究进展[J]. 人民军医, 2015, 06(6): 627–8.
[11] 相海泉. 网络直报分秒即达[J]. 中国信息界:e医疗, 2014, 7(10): 61–2.
[12] 于颖洁, 罗小飞. 疾病预防控制信息系统的发展[J]. 中国药物与临床, 2015, 14(09): 1361–2.
[13] 康 敏, 钟豪杰, 杨 芬, 等. 广东省2009年甲型H1N1流感流行与网络搜索情况的相关性分析[J]. 热带医学杂志, 2011, 11(6): 629–32.
[14] 闫城榛, 韩志国. 应变大数据[J]. 中国传媒科技, 2013, 6(07): 28–33. DOI:10.3969/j.issn.1671-0134.2013.07.007
[15] 黄达沧. 基于搜索引擎数据的手足口病监测[D]. 长春: 东北师范大学, 2015.
[16] Wilson K, Brownstein JS. Early detection of disease outbreaks using the Internet[J]. CMAJ, 2009, 180(8): 829–31. DOI:10.1503/cmaj.1090215
[17] Ginsberg J, Mohebbi MH, Patel RS, et al. Detecting influenza epidemics using search engine query data[J]. Nature, 2009, 457(7232): 1012–4. DOI:10.1038/nature07634
[18] Eysenbach G. Infodemiology:tracking flu-related searches on the web for syndromic surveillance[C]//AMIA Annual Symposium Proceedings, 2006: 244-8.
[19] Hulth A, Rydevik G, Linde A. Web queries as a source for syndromic surveillance[J]. PLoS One, 2009, 4(2): e4378–82. DOI:10.1371/journal.pone.0004378
[20] 李秀婷, 刘 凡, 董纪昌, 等. 基于互联网搜索数据的中国流感监测[J]. 系统工程理论与实践, 2013, 33(12): 3028–34. DOI:10.12011/1000-6788(2013)12-3028
[21] Pew Research Center's Pew Internet & American Life Project[R]. Online Health Search, 2006.
[22] Polgreen PM, Chen Y, Pennock DM, et al. Using Internet searches for influenza surveillance[J]. Clin Infect Dis, 2008, 47(11): 1443–8. DOI:10.1086/596019
[23] 肖 辉, 周征奇, 肖革新, 等. 公共卫生领域中的数据挖掘[J]. 医学信息学杂志, 2013, 18(12): 2–5.
[24] Doornik J. Improving the timeliness of data on influenza-like illnesses using Google search data[C]//8th Oxmetrics User Conference, 2010.
[25] Milinovich GJ, Magalhães RJ, Hu W. Role of big data in the early detection of Ebola and other emerging infectious diseases[J]. Lancet Glob Health, 2015, 3(1): e20–1. DOI:10.1016/S2214-109X(14)70356-0
[26] Althouse BM, Ng YY, Cummings DA. Prediction of dengue incidence using search query surveillance[J]. PLoS Negl Trop Dis, 2011, 5(8): e1258–63. DOI:10.1371/journal.pntd.0001258
[27] 聪 颖. 大数据能帮我们避免下一场瘟疫[J]. 吉林医学信息, 2014, 07(5): 30–1.
[28] 李 锐, 孙利谦, 熊成龙, 等. 基于互联网搜索数据研究全球高致病性禽流感病毒H5N1的暴发监测[J]. 中华疾病控制杂志, 2015, 19(8): 773–7.
[29] Kang M, Zhong H, He J, et al. Using google trends for influenza surveillance in South China[J]. PLoS One, 2013, 8(1): e55205–8. DOI:10.1371/journal.pone.0055205
[30] Centers for Disease Control and Prevention. Percentage of adults aged ≥18 years who looked up health information on the Internet,by age group and Sex-National health interview survey,United States,January September,2009[J]. Morbid Mortal Weekly Rep, 2010, 59(15): 461–6.
[31] Pelat C, Turbelin C, Bar-Hen A, et al. More diseases tracked by using Google Trends[J]. Emerg Infect Dis, 2009, 15(8): 1327–8. DOI:10.3201/eid1508.090299
[32] Wilson N, Mason K, Tobias M, et al. Interpreting google flu trends data for pandemic H1N1 influenza: the New Zealand experience[J]. Euro Surveill, 2009, 14(44): 19386–93.
[33] Kelly H, Grant K. Interim analysis of pandemic influenza (H1N1) 2009 in Australia: surveillance trends, age of infection and effectiveness of seasonal vaccination[J]. Euro Surveill, 2009, 14(31): 19288–94.
[34] 郭浩岩, 王 林, 苏 婧, 等. 2013年人感染H7N9禽流感舆情监测结果分析[J]. 中国健康教育, 2015, 13(05): 479–81.
[35] Yuan Q, Nsoesie EO, Lv B, et al. Monitoring influenza epidemics in China with search query from baidu[J]. PLoS One, 2013, 8(5): e64323–8. DOI:10.1371/journal.pone.0064323
[36] Xie T, Yang Z, Yang S, et al. Correlation between reported human infection with avian influenza A H7N9 virus and cyber user awareness: what can we learn from digital epidemiology[J]. Int J Infect Dis, 2014, 22(1): 1–3.
[37] Valdivia A, Lopez-Alcalde J, Vicente M, et al. Monitoring influenza activity in Europe with Google Flu Trends: comparison with the findings of sentinel physician networks - results for 2009-10[J]. Euro Surveill, 2010, 15(29): 19621–8.
[38] Butler D. When google got flu wrong[J]. Nature, 2013, 494(7436): 155–6. DOI:10.1038/494155a
[39] Dugas AF, Hsieh YH, Levin SR, et al. Google flu trends: correlation with emergency department influenza rates and crowding metrics[J]. Clin Infect Dis, 2012, 54(4): 463–9. DOI:10.1093/cid/cir883
[40] Hulth A, Rydevik G. Web query-based surveillance in Sweden during the influenza A(H1N1)2009 pandemic, April 2009 to February 2010[J]. Euro Surveill, 2011, 16(18): 19856–62.
[41] Lazer D, Kennedy R, King G, et al. Big data. The parable of Google Flu: traps in big data analysis[J]. Science, 2014, 343(6176): 1203–5. DOI:10.1126/science.1248506
[42] 陈新保, 朱建军, 陈建群. 时空数据模型综述[J]. 地理科学进展, 2009, 28(01): 9–17.
[43] 林 玫, 李永红, 董柏青. 传染病预测预警方法在我国的应用现状[J]. 中国热带医学, 2010, 10(3): 308–9, 348.
[44] 屈晓晖, 袁 武, 袁 文, 等. 时空大数据分析技术在传染病预测预警中的应用[J]. 中国数字医学, 2015(08): 36–9. DOI:10.3969/j.issn.1673-7571.2015.08.012