浅谈机器学习基础(下)
利用回归预测数值型数据 线性回归 前面讲的都是监督学习中的分类,训练出可以判断样本类别的模型,而回归的目的是预测数值型的目标值,最直接的办法是依据输入写出一个目标值的计算公式,将自变量代入后就能根据函数得到因变量的预测值。 先讲最简单的回归方法:最小二乘法。
利用回归预测数值型数据 线性回归 前面讲的都是监督学习中的分类,训练出可以判断样本类别的模型,而回归的目的是预测数值型的目标值,最直接的办法是依据输入写出一个目标值的计算公式,将自变量代入后就能根据函数得到因变量的预测值。 先讲最简单的回归方法:最小二乘法。
注:题中所指的『机器学习』不包括『深度学习』。本篇文章以理论推导为主,不涉及代码实现。 前些日子定下了未来三年左右的计划,其中很重要的一点是成为一名出色的赢咖4产品经理,说是要每月至少读一本赢咖4相关书籍,现在一个半月过去了,书读了一些,资料也看了不少,算是小有所
作者:猿辅导研究团队语音识别负责人夏龙,机器学习研发工程师吴凡 近期,猿辅导公司开源了两个机器学习项目——ytk-learn, ytk-mp4j,其中 ytk-mp4j 是一个高效的分布式通信库,基于该通信库我们实现了 ytk-learn 分布式机器学习库,该机器学习库目前在猿辅导很多应用场
在听到人们谈论机器学习的时候,你是不是对它的涵义只有几个模糊的认识呢?你是不是已经厌倦了在和同事交谈时只能一直点头?让我们改变一下吧! 本指南的读者对象是所有对机器学习有求知欲但却不知道如何开头的朋友。我猜很多人已经读过了机器学习的维基百科词条,倍感挫折,以为没人
近日,kdnuggets 做了一个关于资料科学、机器学习语言使用情况的问卷调查,他们分析了954 个回答,得出结论──Python 已经打败R 语言,成为分析、资料科学和机器学习平台中使用频率最高的语言。有关此次问卷更具体的情况总结整理如下。 之前我们在kdnuggets 上做了这样一个问卷
本文作者为 Andrey Nikishaev,既是软件开发者,也是创业者。 如何成为一名机器学习工程师? 经常有人这么问,这篇文章就尝试回答这个问题,其中会谈到关于机器学习各方面,从简单的线性回归到最新的神经网络。你不仅将学习如何使用这些技术,还将学习如何从头开始建构。 这个指
CRF(Conditional Random Field)是图像分割中很常用的后处理算法。在《全卷积网络(FCN)与图像分割 》这篇博文中提到,FCN可以得到较好的分割结果,Chen, Liang-Chieh, et al. 2014在其基础上使用fully connected CRF得到了更好的效果,但是FCN的步骤和CRF的步骤是分开的。Zheng et al 201
近些年来,深度卷积神经网络(DCNN)在图像分类和识别上取得了很显著的提高。回顾从2014到2016这两年多的时间,先后涌现出了R-CNN,Fast R-CNN, Faster R-CNN, ION, HyperNet, SDP-CRC, YOLO,G-CNN, SSD等越来越快速和准确的目标检测方法。 1. 基于Region Proposal的方法 该类方法
赢咖4(Artificial Intelligence) 主要在研究如何以电脑的程式技巧,来执行一些由人类执行时,需要智能才能完成的工作。所以前述这些都属于赢咖4的范围,但是实行起来的困难度颇高,需要细分成许多的研究领域。近年来由于 Internet 的兴起,赢咖4找到了另一个可以发挥的舞台。像
1, 胎儿MRI及其特点 在产前影像检查中,超声是最常用的成像方式,但是由于对比度低、视野狭窄、信噪比低等原因不能不能很好地显示胎儿的细节结构,例如发育中的大脑、内脏等。如果超声检查中发现胎儿的一些疑似结构异常,使用MRI可以作为补充检查,提供更详细的结构信息,因为MRI有较好的软
最近基于深度学习的图像分割技术一般依赖于卷积神经网络CNN的训练,训练过程中需要非常大量的标记图像,即一般要求训练图像中都要有精确的分割结果。 对于图像分割而言,要得到大量的完整标记过的图像非常困难,比如在ImageNet数据集上,有1400万张图有类别标记,有50万张图给出了boundin
三年前的Mac到手后一直懒得做更新,主要是因为系统升级后一些有依赖的软件都需要更新,有时还挺容易出问题。为了安全稳定起见,OSX 10.9系统就被我用了三年。但是,这么久不更新实在跟不上潮流了,最近想安装TensorFlow,结果我这么旧的系统被它鄙视并且拒绝了,只好趁着假期把系统更新一下。
拥有高方差使得决策树(secision tress)在处理特定训练数据集时其结果显得相对脆弱。bagging(bootstrap aggregating 的缩写)算法从训练数据的样本中建立复合模型,可以有效降低决策树的方差,但树与树之间有高度关联(并不是理想的树的状态)。 随机森林算法(Random forest algorithm)是对 baggi
许多机器学习算法的核心是优化。优化算法用于在机器学习中为给定训练集找出合理的模型参数设置。机器学习最常见的优化算法是随机梯度下降(SGD:stochastic gradient descent)。 本教程将指导大家用 Python 实现随机梯度下降对线性回归算法的优化。通过本教程的学习,你将了解到:
作者:Soon Hin Khor 机器之心编译 参与:Jane W、邵明、微胖 本文是日本东京 TensorFlow 聚会联合组织者 Hin Khor 所写的 TensorFlow 系列介绍文章的Part 3 和 Part4,自称给出了关于 TensorFlow 的 gentlest 的介绍。在之前发布的前两部分介绍中,作者谈到单一特征问题的线性回归问题以
选自Technica Curiosa 作者:Nishant Shukla 机器之心编译 参与:Jane W 本文的作者 Nishant Shukla 为加州大学洛杉矶分校的机器视觉研究者,从事研究赢咖4机器学习技术。Nishant Shukla 一直以来兼任 Microsoft、Facebook 和 Foursquare 的开发者,以及 SpaceX 的机器学习工程师。他还
选自EliteDataScience 机器之心编译 参与:蒋思源、晏奇 在本教程中,作者对现代机器学习算法进行一次简要的实战梳理。虽然类似的总结有很多,但是它们都没有真正解释清楚每个算法在实践中的好坏,而这正是本篇梳理希望完成的。因此本文力图基于实践中的经验,讨论每个算法的优缺点。而机
机器学习算法 原理、实现与实践 —— 距离的度量 1. 欧氏距离 欧氏距离是最常见的两点之间或多点之间的距离表示法,又称之为欧几里得度量,它定义于欧几里得空间中,如点和之间的距离为: 1)二维平面上两点与间的欧氏距离: 2)三维空间两点与间的欧氏距离: 3)两个n维向量与
机器学习算法 原理、实现与实践 —— 感知机 感知机(perceptron)是二分类的线性分类模型,输入为特征向量,输出为实例的类别,取值+1和-1。感知机学习旨在求出将训练数据进行线性划分的分离超平面,为此,引入了基于误分类的损失函数,利用梯度下降法对损失函数进行极小化,求得感知
机器学习算法 原理、实现与实践 —— 分类、标注与回归 1. 分类问题 分类问题是监督学习的一个核心问题。在监督学习中,当输出变量YY取有限个离散值时,预测问题便成为分类问题。 监督学习从数据中学习一个分类决策函数或分类模型,称为分类器(classifier)。分类器对新的输
机器学习算法 原理、实现与实践——模型评估与模型选择 1. 训练误差与测试误差 机器学习的目的是使学习到的模型不仅对已知数据而且对未知数据都能有很好的预测能力。 假设学习到的模型是,训练误差是模型关于训练数据集的平均损失: 其中NN是训练样本容量。 测试误差
一、前言 这篇卷积神经网络是前面介绍的多层神经网络的进一步深入,它将深度学习的思想引入到了神经网络当中,通过卷积运算来由浅入深的提取图像的不同层次的特征,而利用神经网络的训练过程让整个网络自动调节卷积核的参数,从而无监督的产生了最适合的分类特征。这个概括可能有点抽象,我
机器学习算法原理、实现与实践——监督学习 机器学习包括监督学习、非监督学习、半监督学习及强化学习,这里先讨论监督学习。 监督学习的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测。 1 基本概念 1.1 输入空间、特征空间与输出空间
机器学习原理、实现与实践——机器学习概论 如果一个系统能够通过执行某个过程改进它的性能,这就是学习。 ——— Herbert A. Simon 1. 机器学习是什么 计算机基于数据来构建概率统计模型并运用模型对数据进行预测与分析的一门学科。 从上面的机器学习
一、引言 在前一篇关于神经网络的文章中,给出了神经网络中单个神经元的结构和作用原理,并且用梯度下降的方法推导了单个SIMGOID单元的权值更新法则。在文章的最后给了一个例子,我们以一个4维的单位向量作为特征,映射到一维的[0,1]的空间中,我们采用了一个感知器单元,实验结果发现经过15