ML 05、分类、标注与回归

首页 > 教程 > 机器学习 » ML 05、分类、标注与回归

aihot 2017-05-17 23:47:26 机器学习 | 查看评论

ML 05、分类、标注与回归

机器学习算法原理、实现与实践 —— 分类、标注与回归

1. 分类问题

分类问题是监督学习的一个核心问题。在监督学习中，当输出变量YY取有限个离散值时，预测问题便成为分类问题。

监督学习从数据中学习一个分类决策函数或分类模型，称为分类器（classifier）。分类器对新的输入进行输出的预测，这个过程称为分类。

分类问题包括学习与分类两个过程。在学习的过程中，根据已知的训练样本数据集利用有效的学习方法学习一个分类器；在分类中，利用学习的分类器对新的输入实例进行分类。

对于训练数据集

，学习系统将学习一个分类器

或者

；分类系统通过学到的分类器

或者

对于新的输入实例

进行分类，即预测其输出的类标记

评价分类器性能的指标一般是分类的准确率，其定义是：对于给定的测试数据集，分类器正确分类的样本数与总样本数之比。

对于二分类问题常用的评价指标是精确率（precision）与召回率（recall）。通常以关注的类为正类，其他类为负类，分类器在测试数据集上的预测或正确或不正确，4种情况出现的总数分别记作：

TP —— 将正类预测为正类的数量；
FN —— 将正类预测为负类的数量；
FP —— 将负类预测为正类的数量；
TN —— 将负类预测为负类的数量；

精确率定义为：

回率定义为：

此外，还有一个

值，是精确率和召回率的调用均值，即

精确率真和召回率都高时，

也会高。

许多的机器学习方法可以用来解决分类问题，包括kk近邻法、感知机、朴素贝叶斯法、决策树、逻辑斯谛回归模型、SVM、adaBoost、贝叶斯网络、神经网络等。

比如一个文本内容分类的例子。文本分类是根据文本的特征将其划分到已有的类中。输入是文本的特征向量，输出是文本的类别。通常把文本中的单词定义为特征，每个单词对应一个特征。单词的特征可以是二值的：如果单词在文本中出现则取值1，否则是0；也可以是多值的，表示单词在文本中出现的频率。形象地，如果“股票”“银行”“货币”这些词出现很多，这个文本可能属于经济类，如果“网球”“比赛”“运动员”这些词频繁出现，这个文本可能属于体育类。

2. 标注问题

标注问题也是一个监督学习问题。可以认为标记问题是分类问题的一个推广。

标注问题的输入是一个观测序列，输出的是一个标记序列或状态序列。也就是说，分类问题的输出是一个值，而标注问题输出是一个向量，向量的每个值属于一种标记类型。

标注问题也可以分为两步：学习和标注两个过程。首先给定一个训练数据集

这里，

是输入观测序列，

是相应的输出标记序列，n是序列的长度，对于不同样本可以有不同的值。学习系统基于训练数据集构建一个模型，表示为条件概率分布：

这里，每一个

取值为所有可能的观测，每一个

取值为所有可能的标记，一般n≪N。标注系统按照学习得到的条件概率分布模型，对新的输入观测序列找到相应的输出标记序列。具体地，对一个观测序列

找到使条件概率

最大的标记序列

评价标注模型的指标与评价分类的模型指标一样，常用的有标注准确率、精确率和召回率等。

标注常用的机器学习方法有：隐性马尔可夫模型、条件随机场。

1/2 1 2 下一页尾页

除特别注明外，本站所有文章均为赢咖4注册原创，转载请注明出处来自ML 05、分类、标注与回归

留言与评论（共有 0 条评论）

繁

[lianlun]1[/lianlun]