aihot  2017-05-17 20:59:19  机器学习 |   查看评论   

 ML 02、监督学习

机器学习算法原理、实现与实践——监督学习

机器学习包括监督学习、非监督学习、半监督学习及强化学习,这里先讨论监督学习。 
监督学习的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测。

1 基本概念

1.1 输入空间、特征空间与输出空间

输入与输出所有可能取值的集合分别称为输入空间输出空间

每个具体的输入是一个实例(instance),通常由特征向量(feature vector)表示,这时,所有特征向量存在的空间称为特征空间。特征空间的每一维对应于一个特征。有时假设输入空间与特征空间为相同的空间。有时假设为不同的空间,这里需要将输入空间映射于特征空间,这一过程称为特征提取。模型实际上都是定义在特征空间上的。在监督学习中,往往把输入空间看为特征空间。通常用x表示输入空间的一个实例 




其中,表示x的第i个特征。注意区分Xi,前者是一个实例中的第i维特征的值,而后者表示一个训练集中的第i个实例,它是一个向量。

监督学习从训练数据集合中学习模型,对测试数据进行预测。训练数据由输入(或特征向量)与输出对组成,训练集通常表示为: 



测试数据也是由相应的输入与输出对组成。 
输入与输出变量均为连续变量的预测问题称为回归问题。输出变量为有限个离散变量的预测称为分类问题;输入变量与输出变量均为变量序列的预测问题称为标注问题

1.2 联合概率分布

监督学习假设输入与输出的随机变量X