aihot  2017-05-08 06:48:17  赢咖4平台 |   查看评论   

 赢咖4

作为我们对机器智能前沿进行的一系列访谈的一部分,我最近采访了Gurjeet Singh。 Singh是Ayasdi的首席执行官和联合创始人,该公司利用机器智能软件自动化和加速数据洞察的发现。 作为顶级数学和计算机科学期刊中的许多专利和出版物,Singh开发了用于拓扑数据分析的关键数学和机器学习算法。
 
关键因素

•  拓扑领域研究了通过连续变形将一个空间映射到另一个空间。

•  机器学习算法产生从输入空间到输出空间的功能映射,并且使用拓扑的形式主义来理解它们。

•  拓扑方法允许您研究数据集,而不预先假设形状,并结合各种机器学习技术,同时保持数据的基本形状。

David Beyer:让我们开始谈论你的背景,以及你如何到达今天的地方。
 
Gurjeet Singh:我是一个数学家和一个计算机科学家,最初来自印度。我在德州仪器的现场开始了我的工作,构建集成软件和执行数字设计。在TI,我得到了一个项目,使用称为数字信号处理器(DSP)的专门芯片集群来解决计算硬数学问题。
 
作为一名工程师通过培训,我对高级数学有内心的恐惧。我不想被发现是一个假的,所以我参加了在斯坦福的计算数学计划。在那里,我能够应用我的一些DSP工作来解决偏微分方程,并证明流体动力学研究者不再需要购买超级计算机了;他们可以只使用一组DSP来运行系统。然后我花了一些时间在机械工程建立类似的基于GPU的偏微分方程解算器的机械系统。最后,我在Stanford的Andrew Ng实验室工作,构建了一个四足了它,以学习自己走路。
 
然后有一天,我看到了我的顾问Gunnar Carlsson的一个说明,描述了他如何应用拓扑来解释真实数据集。他解释了拓扑如何同样适用于四个或五个非常独特和有趣的问题领域。这真的很令人兴奋,我开始与他合作的话题。该项目是一个学术成功,DARPA(国防高级研究计划署)要求我们将我们的研究商业化,并启动一家公司。这就是我们如何开始Ayasdi。
 
DB:你能告诉我们关于拓扑的演变,广泛来说,并分享一些洞见,为什么它是如此有用的统一机器智能的不同地区?
 
GS:拓扑是一个非常古老的数学分支。它在18世纪由数学家如欧拉开发。它最初是用来量化代数方程的质量方面。例如,如果你有一个圆的方程,拓扑是数学的面积,允许你说,例如,“哦,一个圆是一个单一的连接的东西;它将飞机分为内部和外部;并且它具有简单的连接结构。“在过去300年的发展过程中,它已经成为将一个空间映射到另一个空间的研究。
 
例如,有两个大类的机器学习算法。有监督机器学习算法和无监督机器学习算法。此外,在监督算法内,存在两种类型:采用输入向量来预测数字的算法,以及采用向量来产生类标签的算法。
 
在无监督方面,有两种不同的方法。什么统一这四个不同的功能是它们都产生从输入空间到输出空间的功能映射。拓扑的内置形式主义允许您跨不同类型的功能学习。所以,如果你想把这些不同的学习算法的结果结合在一起,拓扑允许你这样做,同时仍然保持底层形状或分布的保证。这是第一个重要的见解。
 
第二个见解是,基本上,所有机器学习算法解决优化问题。机器学习算法假定每个问题的数据的特定形状。然后优化过程找到使数据看起来像该形状的最佳参数。拓扑反过来。拓扑,即使它利用了所有这些机器学习算法,允许您发现数据的底层形状,使您不必承担它。

 

DB:关于拓扑应用于机器学习的一些关键概念是什么?
 
GS:很简单。只有一个关键的想法:数据有形状,形状有意义。在标准机器学习中,数据的形状通常是事后考虑的。拓扑将形状放在前面和中心 - 即,作为数据的最重要的方面。
 
DB:这种技术的真实应用是什么?为什么这很重要?
 
GS:今天,我们充斥着数据。机器学习算法被开发为一种从越来越大和复杂的数据集中提取价值的方法。然而,现在有很多算法可供选择。机器学习算法的不完全或不正确的应用可导致丢失或甚至错误的结论。
 
拓扑通过使用任何算法或算法组合对您的数据集进行全面调查来解决这一增加数据复杂性的问题,并呈现客观结果(即,没有信息丢失)。
 
DB:使用拓扑方法,典型的调查是什么样子?
 
GS:使用拓扑的一个巨大好处是,您不必预先假设一个形状库。你不必说,“好吧,我知道一个圆圈看起来像什么。圆是我们的原型。“拓扑以组合形式表示您的基础数据。它构建一个网络,其中所述网络中的每个节点包含您的数据的子集,并且如果两个节点共享一些数据,则两个节点彼此连接。
 
如果从表格的角度考虑它,你将它提供给你的表,输出是这种图形表示,其中每个节点是行的子集。但是一行可以出现在多个节点中,只要发生这种情况,就可以连接它们。这种非常简单的结构具有两个巨大的优点。第一个是,不管在特定调查中组合的底层机器学习算法,输出将总是看起来像这个图。第二个是这种网络形式是非常可计算的 - 即,你可以很容易地在它之上构建东西:推荐系统,分段线性模型,梯度运算符等。
 
DB:你能推广到另一个例子,形状不一定是一个圆?
 
 

除特别注明外,本站所有文章均为 赢咖4注册 原创,转载请注明出处来自数学和机器学习算法

留言与评论(共有 0 条评论)
   
验证码:
[lianlun]1[/lianlun]