谷歌栽跟头的AI流行病预测，如何被创业公司攻占？-赢咖4注册

ramy 2020-02-06 16:09:37 未来医疗 | 查看评论

为什么GFT的预测总是偏高？根据这一理论，我们可以知道，一旦GFT发布的流行病预测指数升高，立刻会引发媒体报道，从而导致更多相关信息搜索，从而又强化GFT的疫情判断，无论如何调整算法，也改变不了“测不准”的结果。

三、相关而非因果

研究人员指出，GFT的根源问题在于，谷歌工程师并不清楚搜索关键词和流感传播之间到底有什么因果联系，而只是关注数据之间的——统计学相关性特征。过度推崇“相关”而忽略“因果”就会导致数据失准的情况。

比如，以“流感”为例，如果一段时间该词搜索量暴涨，可能是因为推出一部《流感》的电影或歌曲，并不一定意味着流感真的在爆发。

一直以来，尽管外界一直希望谷歌能够公开GFT的算法，谷歌并没有选择公开。这让很多研究人员质疑这些数据是否可以重复再现或者存在更多商业上的考虑。他们希望应该将搜索大数据和传统的数据统计（小数据）结合起来，创建对人类行为更深入、准确的研究。

显然，谷歌并没有重视这一意见。最终在2015年GFT正式下线。但其仍在继续收集相关用户的搜索数据，仅提供给美国疾控中心以及一些研究机构使用。

为什么BlueDot率先成功预测：AI算法与人工分析的协奏曲

众所周知，谷歌在当时已经在布局赢咖4，2014年收购DeepMind，但依然保持它的独立运营。同时，谷歌也没有GFT再投入更多关注，因此也并未考虑将AI加入到GFT的算法模型当中，而是选择了让GFT走向“安乐死”。

几乎在同一时期，今天我们所见到的BlueDot诞生。

BlueDot是由传染病专家卡姆兰·克汗（Kamran Khan）建立流行病自动监测系统，通过每天分析65种语言的约10万篇文章，来跟踪100多种传染病爆发情况。他们试图用这些定向数据收集来获知潜在流行传染病爆发和扩散的线索。

BlueDot一直使用自然语言处理（NLP）和机器学习（ML）来训练该“疾病自动监测平台”，这样不仅可以识别和排除数据中的无关“噪音”，比如，系统识别这是蒙古炭疽病的爆发，还仅仅是1981年成立的重金属乐队“炭疽”的重聚。又比如GFT仅仅将“流感”相关搜索的用户理解为可能的流感病患者，显然出现过多不相关用户而造成流行病准确率的高估。这也是BlueDot区别于GFT在对关键数据进行甄别的优势之处。

就像在这次在新型冠状病毒疫情的预测中，卡姆兰表示，BlueDot通过搜索外语新闻报道，动植物疾病网络和官方公告来找到疫情信息源头。但该平台算法不使用社交媒体的发布内容，因为这些数据太过杂乱容易出现更多“噪音”。

谷歌栽跟头的AI流行病预测，如何被创业公司攻占？

关于病毒爆发后的传播路径预测，BlueDot更倾向于使用访问全球机票数据，从而更好发现被感染的居民的动向和行动时间。在1月初的时候，BlueDot也成功预测了新型冠状病毒从武汉爆发后，几天之内从武汉扩散至北京、曼谷、汉城及台北。

新冠病毒爆发并非是BlueDot的第一次成功。在2016年，通过对巴西寨卡病毒的传播路径建立AI模型的分析，BlueDot成功地提前六个月预测在美国佛罗里达州出现寨卡病毒。这意味着BlueDot的AI监测能力甚至可以做到预测流行病的地域蔓延轨迹。

从失败到成功，BlueDot和谷歌GFT之间究竟存有哪些差异？

一、预测技术差异

之前主流的预测分析方法采取的是数据挖掘的一系列技术，其中经常用到的数理统计中的“回归”方法，包括多元线性回归、多项式回归、多因Logistic回归等方法，其本质是一种曲线的拟合，就是不同模型的“条件均值”预测。这也正是GFT所采用的预测算法的技术原理。

在机器学习之前，多元回归分析提供了一种处理多样条件的有效方法，可以尝试找到一个预测数据失误最小化且“拟合优度”最大化的结果。但回归分析对于历史数据的无偏差预测的渴求，并不能保证未来预测数据的准确度，这就会造成所谓的“过度拟合”。

据北大国研院教授沈艳在《大数据分析的光荣与陷阱——从谷歌流感趋势谈起》一文中分析，谷歌GFT确实存在“过度拟合”的问题。也就是在2009年GFT可以观察到2007-2008年间的全部CDC数据，采用的训练数据和检验数据寻找最佳模型的方法所参照的标准就是——不惜代价高度拟合CDC数据。

所以，在2014年的《Science》论文中指出，会出现GFT在预测2007-2008年流感流行率时，存在丢掉一些看似古怪的搜索词，而用另外的5000万搜索词去拟合1152个数据点的情况。2009年之后，GFT要预测的数据就将面临更多未知变量的存在，包括它自身的预测也参与到了这个数据反馈当中。无论GFT如何调整，它仍然要面对过度拟合问题，使得系统整体误差无法避免。

BlueDot采取了另外一项策略，即医疗、卫生专业知识和赢咖4、大数据分析技术结合的方式，去跟踪并预测流行传染病在全球分布、蔓延的趋势，并给出最佳解决方案。

谷歌栽跟头的AI流行病预测，如何被创业公司攻占？

BlueDot主要采用自然语言处理和机器学习来提升该监测引擎的效用。随着近几年算力的提升以及机器学习，从根本上彻底改变了统计学预测的方法。主要是深度学习（神经网络）的应用，采用了“反向传播”的方法，可以从数据中不断训练、反馈、学习，获取“知识”，经过系统的自我学习，预测模型会得到不断优化，预测准确性也在随着学习而改进。而模型训练前的历史数据输入则变得尤为关键。足够丰富的带特征数据是预测模型得以训练的基础。经过清洗的优质数据和提取恰当标注的特征成为预测能否成功的重中之重。

二、预测模式差异

与GFT完全将预测过程交给大数据算法的结果的方式不同，BlueDot并没有完全把预测交给AI监测系统。BlueDot是在数据筛选完毕后，会交给人工分析。这也正是GFT的大数据分析的“相关性”思维与BlueDot的“专家经验型”预测模式的不同。

AI所分析的大数据是选取特定网站（医疗卫生、健康疾病新闻类）和平台（航空机票等）的信息。而AI所给出的预警信息也需要相关流行病学家的再次分析才能进行确认是否正常，从而评估这些疫情信息能否第一时间向社会公布。

2/3 首页上一页 1 2 3 下一页尾页

关于本站

加入我们

网站合作

标签（推荐）