aihot  2017-05-07 23:03:01  未来医疗 |   查看评论   
大约在同一时间,Chris Burge在麻省理工学院的小组开发了一个马尔可夫模型,可以检测基因,推断基因的开始以及不同部分之间的边界,称为内含子和外显子。这些方法可用于低水平的“序列分析”,但他们没有桥接基因型 - 表型分化。
 
广义地说,当时的研究状态主要是由浅的技术驱动的,这些技术没有充分解释基因组文本如何转化为细胞,组织和器官的基本生物学机制。
 
DB:开发计算模型足以说明底层生物学是什么意思?
 
BF:将基因型与表型相关联的最流行的方法之一是在所谓的全基因组关联研究(GWAS)中寻找与疾病相关的突变。这种方法在其意义上也是浅的,这意味着它折扣了从突变到疾病表型所涉及的许多生物步骤。 GWAS方法可以识别可能重要的DNA区域,但是它们识别的大多数突变不是因果性的。在大多数情况下,如果你可以“纠正”突变,它不会影响表型。
 
一个非常不同的方法解释中间分子表型。以基因表达为例。在活细胞中,当蛋白质以某种方式与基因上游的DNA序列即“启动子”相互作用时,基因得到表达。尊重生物学的计算模型应结合该启动子 - 基因表达链的因果关系。 2004年,Beer和Tavazoie写了我认为是一份鼓舞人心的论文。他们试图基于其启动子序列,使用从启动子序列衍生的作为输入特征的逻辑电路来预测每个酵母基因的表达水平。最终,他们的方法没有失败,但这是一个令人着迷的努力。
 
我的小组的方法是受到啤酒和Tavazoie的工作的启发,但不同在三种方式:我们检查哺乳动物细胞,我们使用更先进的机器学习技术,我们专注于拼接而不是转录。这最后的区别是回想起偶然的转折。转录比模拟拼接要困难得多。剪接是一种生物过程,其中基因的一些部分(内含子)被去除,而其余部分(外显子)连接在一起。有时外显子也被去除,并且这可以对表型,包括神经病症和癌症具有主要影响。
 
为了破解使用机器学习的拼接调节,我的团队与一个优秀的实验生物学家Benjamin Blencowe领导的小组合作。我们建立了一个框架,从基因组序列中提取生物学特征,预处理噪声实验数据,以及训练机器学习技术来预测DNA的剪接模式。这项工作相当成功,并导致了几个出版物在“自然”和“科学”。
 
DB:基因组学不同于机器学习的其他应用吗?

BF:我们发现,与视觉,语音和文本处理相比,基因组学面临着独特的挑战。在视觉中的许多成功基于假设要分类的对象占据输入图像的大部分。在基因组学中,困难出现,因为感兴趣的物体仅占据一小部分 - 例如,输入的百万分之一。换句话说,你的分类器对微量的信号起作用。一切都是噪音,很多。更糟糕的是,它是相对结构化的噪声,包括与分类任务无关的其他更大的对象。这是你的基因组学。
 
更复杂的是,我们不是真的知道如何解释基因组。当我们检查一个典型的图像,我们自然地认识到它的对象,并通过扩展,我们知道我们想要的算法寻找。这同样适用于文本分析和语音处理,其中我们有一些处理真相的领域。与之形成鲜明对比的是,人类并不自然擅长解释基因组。事实上,他们非常不好。
 
这就是说,我们必须转向真正的超赢咖4,以克服我们的局限。
 
DB:你能告诉我们更多关于你在医学方面的工作吗?
 
BF:我们开始训练我们的系统预测分子表型,而不包括任何疾病数据。然而,一旦被训练,我们意识到我们的系统实际上可以准确地预测疾病;它学习了细胞如何读取DNA序列并将其转化为关键分子。一旦你有一个如何正常工作的计算模型,你可以使用它来检测什么时候失败。
 
然后,我们指导我们的系统大规模疾病突变数据集。假设DNA中有一些特定的突变。我们将那个突变的DNA序列,以及其非突变的对应物,进入我们的系统,并比较两个输出,分子表型。如果我们观察到大的变化,我们将该突变标记为潜在致病性。事实证明,这种方法工作得很好。
 
但当然,它不是完美的。首先,突变可能改变分子表型,但不会导致疾病。第二,突变可能不影响我们正在建模的分子表型,但以某种其他方式导致疾病。第三,当然,我们的系统不是很准确。尽管这些缺点,我们的方法可以准确地区分疾病和良性突变。去年,我们在“科学”和“自然生物技术”发表论文,表明该方法比竞争对手明显更准确。
 
DB:你的公司,Deep Genomics在哪里?
 
BF:我们的工作需要来自各种领域的专业技能,包括深度学习,卷积神经网络,随机森林,GPU计算,基因组学,转录组学,高通量实验生物学和分子诊断。例如,我们有发明了用于预测剪接的贝叶斯深层学习算法的Hui熊,以及开发了用于病童医院的全基因组测序诊断系统的Daniele Merico。我们将继续在这些领域招聘人才。
 
广泛地说,我们的技术可以以多种方式影响医学,包括:遗传诊断,精炼药物靶标,药物开发,个性化医学,更好的健康保险甚至合成生物学。现在,我们专注于诊断,因为它是我们技术的一个直接应用。我们的发动机提供了丰富的信息源,可用于以更低的成本做出更可靠的患者决策。
 
展望未来,这一领域的许多新兴技术将需要了解基因组内部工作的能力。例如,使用CRISPR / Cas9系统进行基因编辑。这种技术让我们“写”DNA,因此,这可能是一个很大的问题。也就是说,知道如何写是不一样的知道什么写。如果你编辑DNA,它可能会使疾病更糟,不更好。想象一下,如果你可以使用计算“引擎”来确定基因编辑的后果大。也就是说,公平地说,是一条路。但最终,这就是我们想要建立的。
 

除特别注明外,本站所有文章均为 赢咖4注册 原创,转载请注明出处来自深度学习满足基因组生物学

留言与评论(共有 0 条评论)
   
验证码:
[lianlun]1[/lianlun]