教导计算机寻找实验数据集中的特定模式称为机器学习-赢咖4注册

aihot 2017-06-17 00:02:35 未来医疗 | 查看评论

一旦长达30亿个字母的人类基因组被测序，我们就进入了一个新的“组学”生物学研究时代。科学家现在正在赛跑对各种生物体的基因组（所有基因）或蛋白质组（所有蛋白质）进行测序，并且在该过程中编辑大量数据。

例如，科学家可以使用“组学”工具如DNA测序来弄清哪些人类基因在病毒性流感感染中受到影响。但是因为人类基因组总共具有至少25,000个基因，即使在这样简单的情况下改变的基因的数量可能在数千。

虽然测序和识别基因和蛋白质给他们一个名字和地方，它不告诉我们他们做什么。我们需要了解这些基因，蛋白质和中间的所有东西如何在不同的生物过程中相互作用。

今天，即使是基本的实验产生大数据，最大的挑战之一是解开背景噪声的相关结果。计算机正在帮助我们克服这个数据山;但他们甚至可以比这更进一步，帮助我们提出科学假说和解释新的生物过程。数据科学，本质上，使前沿生物研究。

计算机救援

计算机具有处理海量数据集的独特资格，因为它们可以同时跟踪分析所需的所有重要条件。

虽然他们可以反映他们编程的人为错误，计算机可以有效地处理大量的数据，他们不偏向熟悉，如人类研究者可能。

也可以教导计算机寻找实验数据集中的特定模式 - 一种称为机器学习的概念，在20世纪50年代首次提出，最着名的是数学家Alan Turing。然后可以要求从数据集学习模式的算法基于从未遇到的新数据进行预测。

机器学习革命了生物研究，因为我们现在可以利用大数据集，并要求计算机帮助理解基础生物学。

左：神经元大约在1899年由圣地亚哥拉蒙和Cajal，神经科学的父亲画。右：人工神经网络的示意图。

培训计算机通过模拟大脑过程“思考”

我们在我们自己的实验室中使用了一种有趣的机器学习类型，称为人工神经网络（ANN）。脑是高度互连的神经元网络，通过发送电脉冲通过神经线路进行通信。类似地，ANN在计算机中模拟神经元的网络，因为它们响应于其他神经元的信号而打开和关闭。

通过应用模拟真实神经元过程的算法，我们可以使网络学习解决许多类型的问题。 Google使用强大的ANN为其现在着名的Deep Dream项目，计算机可以分类甚至创建图像。

我们的小组研究免疫系统，目标是找出新的癌症治疗方法。我们已经使用ANN计算模型来研究短表面蛋白质编码我们的免疫细胞用于确定某事对我们的身体是外来的，因此应该被攻击。如果我们更多地了解我们的免疫细胞（如T细胞）如何区分正常/自身和异常/外来细胞，我们可以设计更好的疫苗和治疗。

病毒在其表面上具有不同的模式，我们的免疫系统想要读取和作用。国家过敏和传染病研究所，国家卫生研究所，CC BY

我们搜索了多年来研究人员发现的数千种蛋白质代码的公开目录。我们将这个大数据集分为两个：来源于健康人类细胞的正常自身蛋白代码和来源于病毒，肿瘤和细菌的异常蛋白质代码。然后我们转向我们实验室开发的人工神经网络。

一旦我们将蛋白质代码喂养到ANN中，该算法能够识别正常和异常蛋白质代码之间的基本差异。人们难以跟踪这些生物现象 - 在大数据集中有数千种这些蛋白质代码要分析。它需要一个机器来解决这些复杂的问题，并定义新的生物学。

通过机器学习的预测

机器学习在生物学中的最重要的应用是其在基于大数据的预测中的效用。基于计算机的预测可以理解大数据，测试假设并节省宝贵的时间和资源。

Nostradamus没有必要和他的预测;我们现在有电脑。Césarde Nostredame

例如，在我们的T细胞生物学领域，知道哪些病毒蛋白编码目标是开发疫苗和治疗的关键。但是有来自任何给定病毒的许多个别蛋白质代码，它是非常昂贵的，并且难以通过实验测试每一个。

相反，我们训练人工神经网络，以帮助机器学习所有的两种类型的蛋白质代码 - 正常与非正常的重要生化特性。然后我们要求模型“预测”哪些新的病毒蛋白质代码类似于“异常”类别，可以被T细胞和免疫系统看到。我们测试了ANN模型对以前从未研究过的不同病毒蛋白。

果然，像勤奋的学生渴望请老师，神经网络能够准确地识别这种病毒中大多数这样的T细胞激活蛋白代码。我们还实验测试了其标记的蛋白质代码，以验证ANN预测的准确性。使用这种神经网络模型，科学家可以因此快速预测来自有害病毒的所有重要的短蛋白质代码，并测试他们开发治疗或疫苗，而不是猜测和单独测试。

明智地实施机器学习

由于不断的精炼，大数据科学和机器学习越来越成为任何种类的科学研究不可或缺的。使用计算机在生物学中进行训练和预测的可能性几乎是无限的。从确定哪种生物标志物的组合最适合用于检测疾病，以了解为什么只有一些患者从特定的癌症治疗中受益，使用计算机挖掘大数据集已经成为研究的有价值的路径。

当然，还有局限性。大数据科学最大的问题是数据本身。如果通过基因组学研究获得的数据开始有错误，或者基于细微的科学，机器将接受不良数据的训练，导致预测不良。学生只有老师一样好。

因为计算机没有感觉，他们可以在追求模式与它们一起，即使没有存在，再次产生不良数据和不可再现的科学。

一些研究人员已经提出了关于计算机成为黑盒数据的科学家谁不清楚地理解他们代表他们进行操纵和加工的关注。

尽管存在这些问题，大数据和机器的好处将继续使他们成为科学研究的宝贵合作伙伴。考虑到告诫，我们独特地准备通过机器的眼睛来理解生物学。