机器学习是研究如何在计算机上 从数据产生模型 的学问。
- 模型:泛指从数据中学得的结果。
基本术语
数据:用于学习的输入内容,通常是一组或多组记录。
数据集:记录的集合。
学习、训练:从数据集中学习模型的过程,通过执行某个学习算法完成。
- 训练集:用于训练的数据集合。
- 测试集:用于通过模型预测结果的数据集合,评估模型优劣。
- 验证集:用于纠正和强化模型的数据集合
类别 | 验证集 | 测试集 |
---|---|---|
是否参与训练 | 否 | 否 |
作用 | 多次使用,不断调整 | 仅仅在最终模型评估时使用 |
西瓜书(周志华的机器学习)中提到
一批关于西瓜的数据,如(色泽=青绿;根蒂=蜷缩;敲声=浊响)、(色泽=乌黑;根蒂=稍蜷;敲声=沉闷)……
其中每对括号内时一条记录,记录的集合为数据集。
- 每条记录是关于一个对象的描述,称为一个样品。
- 反映对象在某方面的表现或性质的事项,称为属性或特征。
- 如色泽、根蒂、敲声
- 属性的取值为属性值
- 如青绿、乌黑、浊响
- 属性所组成的空间称为属性空间、样本空间或输入空间。
- 可以根据色泽、根蒂、敲声的取值确定一个对象,由这三者可组成向量,称为特征向量。
通常,令 表示包含 个样本的数据集,每个样本又由 个属性描述,。 通常称为样本的维数,表示样本的属性个数。
通过学习得到模型,即可在没剖开一个西瓜之前,预测未知的西瓜。建立关系:
- 逗号前面是前面提过的特征向量。
- 逗号后面是结果,称为标签(标记)。
- 即
- 由全部的标签组成的集合称为标记空间或输出空间。
只预测是“好瓜”或者“坏瓜”的任务称为分类任务。
- 只涉及两个类别称为二分类,通常为正类和反类。
- 涉及多个类别称为多分类。
预测连续的值,如西瓜的成熟度,称为回归任务。
当事先不知道某些概念,通过学习发现将西瓜分成若干组(如“外地瓜”“本地瓜”),称为聚类任务。
又根据训练数据是否拥有标记信息,学习任务可以分为监督学习和无监督学习。
- 分类和回归是监督学习的代表
- 聚类是无监督学习的代表
泛化:模型适用于新样本的能力。
经验误差与过拟合
分类错误的样本数占样本总数的比例称为错误率。
误差:模型的实际预测输出与样本的真实输出之间的差异。
- 训练集上的误差称为训练误差或经验误差
- 新样本上的误差称为泛化误差
过拟合:模型对训练集的某些特殊特点过于重视,泛化性能下降。
- 比如对西瓜数据集训练识别西瓜,西瓜大小被过于重视,认为小西瓜(或远处的西瓜)不是西瓜。
欠拟合:模型对训练样本的一般性质拟合不足。
- 比如对西瓜数据集训练识别西瓜,认为绿色的都是西瓜。