数学和机器学习算法-赢咖4注册

aihot 2017-05-08 06:48:17 赢咖4平台 | 查看评论

GS：想象你在方格纸上有字母Y，你正在对它的数据进行采样。聚集原始数据没有意义，因为你将恢复单个集群 - 如果你幸运的话。如果你想对它建立一个回归，那也是错误的，因为数据是非线性的。

想象一下，你使用中心函数来减小尺寸。因此，对于Y上的每个点，你测量它到Y上每个其他点的距离的总和。在Y中间的连接点处函数的值将是低的，因为所有这些点是中心的。 Y的提示将是高的，因为他们远离其他。现在，如果你将维数减少函数与聚类合并，那么在低范围内你会得到一个单一的聚类，因为它是Y的中间。当你走出中间范围，你开始看到三个聚类，因为那些是他们。

DB：公平地概括一下，当执行拓扑调查时，第一个业务顺序是使用某种形式的降维算法？

GS：是的。一旦你减少了数据，压缩它，并获得了知道拓扑的好处，你能够保持形状，同时揭示数据之间的关系。基本上，不同的降维算法将照亮形状的不同方面。

DB：这只是把所有这些算法扔在墙上看到有趣的事情？

GS：是的，实质上，你尽可能多的这些功能在数据，你可以。这些通常是计算昂贵的函数，例如Isomap。拓扑允许你非常顺利地进行比较。您可以以算法方式发现数据中的统计显着差异。机械允许你做得很漂亮。

DB：鉴于您可以将相同的数据映射到不同的视图/表示，是否有一个视图分析优于理解任何特定问题的目标？

GS：你必须小心。你不一定需要一个视图。没有一个正确的答案，因为这些算法的不同组合将产生不同类型的数据中的洞察。如果你能证明他们的统计有效性，它们都是同样有效的。你不想以某种方式将自己限制在一个正确的答案。你想从所有这些中提取具有统计意义的想法。

DB：跨同一数据的不同视图的洞察或结果是否相互矛盾？

GS：事实上，在我们的方法中有益的事情之一是这些算法彼此相关。在许多情况下，您在多个地图上一遍又一遍地找到相同现象的证据。无论发生在什么地方，您都可以对自己发现的内容更有信心。

DB：换句话说，在不同视图或映射中持续的功能更重要？

GS：对这个讨论特别感兴趣的拓扑结构的一个领域是同源性。持久同源性本质上谈论您使用拓扑方法发现的功能的稳定性。你可以想象在许多机器学习设置中，你有这些算法以各种方式参数化。你不知怎么不得不说，“好吧，这是我要选择的参数集。”你可以想象在所有这些设置，它是非常有用的工具，告诉你这些参数的稳定性范围。在这个或那个范围内，它们将是稳定的。

想象一下，如果你从远处盯着一个圆圈;从足够远的地方，你可能会得出结论，一个圆圈只是一个点。所以你必须问，“在什么范围的距离，我称圆圈一个圆？”这一概括到其他形状和各种决议，他们可以看到。有一个非常有趣的研究。事实上，这项工作的一些部分也用于Ayasdi（在我们的基础），但我们不公开它。

DB：展望未来，你会认为机器智能最令人兴奋的发展是什么？持久同源性是你会告诉人们看待的那种东西，无论是拓扑内部还是外部？

GS：这是机器学习的黄金时代。有这么多有趣的工作。我们走了一个角落。在过去，在该领域工作的人往往结婚到特定的方法。现在，突然，人们对新事物开放。例如，直到20世纪80年代，有一个焦点在逻辑回归，没有人想做任何其他事情。到了21世纪，重点已经转移到支持向量机（SVM），再一次，没有人想做任何其他事情。这些天，整个领域似乎已经成熟。每个人都有不同的观点。

我想在功能工程中有很多有趣的工作。这很有趣，因为，一方面，我们有这个整个深入学习的核心过程。所以，有些人会告诉你，我们不需要特征工程。但另一方面，每个人的特色工程与深度学习产生更好的结果。

在更具体的拓扑结构中，令人兴奋的消息是，我们现在有一些工作。我们正在达到理论上的理解，为什么会发生;也就是为什么工作的东西 - 工作。当我们明白，我们可以开始发展它。这些确实是令人兴奋的时代！

2/2 首页上一页 1 2