aihot  2017-05-08 06:48:17  赢咖4平台 |   查看评论   
GS:想象你在方格纸上有字母Y,你正在对它的数据进行采样。聚集原始数据没有意义,因为你将恢复单个集群 - 如果你幸运的话。如果你想对它建立一个回归,那也是错误的,因为数据是非线性的。
 
想象一下,你使用中心函数来减小尺寸。因此,对于Y上的每个点,你测量它到Y上每个其他点的距离的总和。在Y中间的连接点处函数的值将是低的,因为所有这些点是中心的。 Y的提示将是高的,因为他们远离其他。现在,如果你将维数减少函数与聚类合并,那么在低范围内你会得到一个单一的聚类,因为它是Y的中间。当你走出中间范围,你开始看到三个聚类,因为那些是他们。
 
DB:公平地概括一下,当执行拓扑调查时,第一个业务顺序是使用某种形式的降维算法?

GS:是的。一旦你减少了数据,压缩它,并获得了知道拓扑的好处,你能够保持形状,同时揭示数据之间的关系。基本上,不同的降维算法将照亮形状的不同方面。
 
DB:这只是把所有这些算法扔在墙上看到有趣的事情?
 
GS:是的,实质上,你尽可能多的这些功能在数据,你可以。这些通常是计算昂贵的函数,例如Isomap。拓扑允许你非常顺利地进行比较。您可以以算法方式发现数据中的统计显着差异。机械允许你做得很漂亮。
 
DB:鉴于您可以将相同的数据映射到不同的视图/表示,是否有一个视图分析优于理解任何特定问题的目标?
 
GS:你必须小心。你不一定需要一个视图。没有一个正确的答案,因为这些算法的不同组合将产生不同类型的数据中的洞察。如果你能证明他们的统计有效性,它们都是同样有效的。你不想以某种方式将自己限制在一个正确的答案。你想从所有这些中提取具有统计意义的想法。
 
DB:跨同一数据的不同视图的洞察或结果是否相互矛盾?
 
GS:事实上,在我们的方法中有益的事情之一是这些算法彼此相关。在许多情况下,您在多个地图上一遍又一遍地找到相同现象的证据。无论发生在什么地方,您都可以对自己发现的内容更有信心。
 
DB:换句话说,在不同视图或映射中持续的功能更重要?
 
GS:对这个讨论特别感兴趣的拓扑结构的一个领域是同源性。持久同源性本质上谈论您使用拓扑方法发现的功能的稳定性。你可以想象在许多机器学习设置中,你有这些算法以各种方式参数化。你不知怎么不得不说,“好吧,这是我要选择的参数集。”你可以想象在所有这些设置,它是非常有用的工具,告诉你这些参数的稳定性范围。在这个或那个范围内,它们将是稳定的。
 
想象一下,如果你从远处盯着一个圆圈;从足够远的地方,你可能会得出结论,一个圆圈只是一个点。所以你必须问,“在什么范围的距离,我称圆圈一个圆?”这一概括到其他形状和各种决议,他们可以看到。有一个非常有趣的研究。事实上,这项工作的一些部分也用于Ayasdi(在我们的基础),但我们不公开它。
 
DB:展望未来,你会认为机器智能最令人兴奋的发展是什么?持久同源性是你会告诉人们看待的那种东西,无论是拓扑内部还是外部?

 

GS:这是机器学习的黄金时代。有这么多有趣的工作。我们走了一个角落。在过去,在该领域工作的人往往结婚到特定的方法。现在,突然,人们对新事物开放。例如,直到20世纪80年代,有一个焦点在逻辑回归,没有人想做任何其他事情。到了21世纪,重点已经转移到支持向量机(SVM),再一次,没有人想做任何其他事情。这些天,整个领域似乎已经成熟。每个人都有不同的观点。
 
我想在功能工程中有很多有趣的工作。这很有趣,因为,一方面,我们有这个整个深入学习的核心过程。所以,有些人会告诉你,我们不需要特征工程。但另一方面,每个人的特色工程与深度学习产生更好的结果。
 
在更具体的拓扑结构中,令人兴奋的消息是,我们现在有一些工作。我们正在达到理论上的理解,为什么会发生;也就是为什么工作的东西 - 工作。当我们明白,我们可以开始发展它。这些确实是令人兴奋的时代!
 

除特别注明外,本站所有文章均为 赢咖4注册 原创,转载请注明出处来自数学和机器学习算法

留言与评论(共有 0 条评论)
   
验证码:
[lianlun]1[/lianlun]