aihot  2017-05-10 15:15:44  赢咖4 |   查看评论   

 赢咖4

作为我对机器智能前沿进行的一系列访谈的一部分,我最近采访了Anima Anandkumar。 Anandkumar是加州大学尔湾分校电气工程和计算机科学系的教授。她的研究集中在概率潜变量模型的高维学习和张量算法的设计和分析。
 
关键外卖
 
•  现代机器学习涉及大量的数据和大量的变量,这使得它成为一个高维的问题。
•  Tensor方法在学习这种复杂的高维问题方面非常有效,并已应用于许多领域,从社交网络分析,文档分类,基因组学,到理解大脑中的神经元行为。
•  随着研究人员继续处理复杂的高维问题,他们将需要依赖于非凸优化中的新技术,在凸形技术不足的许多情况下。

David Beyer:让我们从你的背景开始。
 
Anima Anandkumar:我从小就对数学着迷 - 它解释我们生活的复杂世界的奇妙能力。在我的大学时代,我意识到计算机科学和工程中的算法思维的力量。结合这些,我继续完成博士学位。在康奈尔大学,然后在麻省理工学院短期博士后,转移到加州大学尔湾分校的教师,我在过去六年。
 
在我的博士学位期间,我致力于设计高效的分布式学习算法的问题。更具体地,当多个设备或传感器正在收集数据时,我们可以设计执行“网内”聚合以减少传输的数据量,但同时预先提供某些任务所需的信息的通信和路由方案,如检测异常?我从统计学角度研究这些问题,结合概率图形模型和设计的算法,显着减少通信要求。从那以后,我一直对一系列机器学习问题感兴趣。
 
现代机器学习自然发生在更高维度的世界中,在该过程中产生大量多变量数据,包括大量噪声。搜索隐藏在这种噪声中的有用信息是具有挑战性的;它就像在干草堆中的谚语针。
 
第一步涉及对隐藏信息和观察数据之间的关系建模。让我用一个例子解释这个。在推荐系统中,隐藏信息表示用户的未知兴趣,并且观察的数据包括他们迄今购买的产品。如果用户最近买了一辆自行车,她对自行车/户外感兴趣,并且在不久的将来更有可能购买自行车配件。我们可以将她的兴趣模型作为一个隐藏的变量,并从她的购买模式推断。然而,为了发现这种关系,我们需要观察很多用户的许多购买模式 - 使这个问题成为一个大数据。
 
我的工作目前的重点是高效地训练这种隐藏的变量模型的大规模问题。在这种无监督的方法中,算法自动寻找驱动观测数据的隐藏因素。机器学习研究人员大体上同意这是我们领域未解决的关键挑战之一。
 
我采取一种新的方法来应对这一挑战,并展示如何张量代数可以揭开这些隐藏的,结构化的模式,没有外部监督。张力是矩阵的更高维度延伸。正如矩阵可以表示成对相关,张量可以表示更高阶的相关。我的研究发现,对高阶张量的操作可以用来有效地学习广泛的概率潜变量模型。
 
DB:你的方法的应用是什么?
 
AA:我们已经在许多设置中显示了赢咖4平台。例如,考虑自动分类文本文档而不先了解主题的任务。在这种情况下,主题本身构成必须从观察到的文本中收集的隐藏变量。一个可能的解决方案可能是使用词频学习主题,但这种朴素的方法不会解释出现在多个上下文中的同一个词。

 

如果相反,我们看看词对的同现,这是比单个词频率更强大的策略。但是为什么要停在对?为什么不检查词的三元组的共同出现等等,到更高的维度?这些高阶关系能揭示什么额外的信息?我们的工作表明,使用受欢迎的Latent Dirichlet分配(LDA)发现隐藏主题需要三阶关系;成对关系不足。
 
上述直觉可广泛应用。以网络为例。你可以尝试通过观察他们的成员的交互来识别隐藏的社区,其例子包括在社交网络中的友谊连接,在推荐系统中的购买模式或大脑中的神经元连接。我的研究显示,至少在“朋友的朋友”或更高级的关系层面上,需要调查以揭示隐藏的社区。虽然这样的功能已经被广泛使用,我们是第一个显示它们包含的精确信息和如何以计算高效的方式提取它们。
 
我们可以进一步扩展隐藏变量模型的概念。而不是试图发现一个隐藏层,我们希望构建隐藏变量的层次结构。这种方法更适合于某类应用,包括例如对物种的进化树建模或理解人类疾病发生的等级。在这种情况下的目标是学习潜在变量的层次结构以及量化隐含变量对给定观察数据的影响的参数。
 
所得到的结构揭示了观察到的变量在叶子处的分层分组,并且参数量化了分组效应对叶节点处的观测的“强度”。然后,我们简化这一过程,找到一个分层张量分解,为此我们开发了高效的算法。
 
DB:那么,为什么张量本身在这些应用中至关重要?
 
AA:首先,我应该注意到这些张量方法不仅仅是理论上的兴趣;他们可以在实践中提供巨大的加速,甚至更好的准确性,我们已经看到的证据。来自罗格斯大学的Kevin Chen在最近的NIPS研讨会上对这些张量方法在基因组学中的优越性进行了引人注目的讨论:与传统的期望最大化(EM)方法相比,它提供了更好的生物学解释,并产生了100倍的加速。
 
Tensor方法非常有效,因为它们使用高度优化的线性代数库,并且可以运行在现代系统上进行大规模计算。在这方面,我的学生芙蓉黄在Spark上部署了张量方法,它的运行速度比变分推理算法快,这是训练概率模型的默认值。总而言之,张量方法现在尴尬地并行并且容易在多个硬件平台上大规模地运行。
 
DB:有关张量数学的东西,使它对于这些高维问题如此有用吗?

AA:Tensors模型提供了更丰富的数据类型,使我们能够处理多元数据(包括空间和时间)。张量的不同模式或张量中的不同方向表示不同种类的数据。
 
在其核心,张量描述比矩阵更丰富的代数结构,从而可以编码更多的信息。对于上下文,将矩阵视为表示行和列 - 换句话说,二维数组。 Tensors将这个想法扩展到多维数组。
 

除特别注明外,本站所有文章均为 赢咖4注册 原创,转载请注明出处来自更高层次的机器学习

留言与评论(共有 0 条评论)
   
验证码:
[lianlun]1[/lianlun]