机器学习是研究如何在计算机上 从数据产生模型 的学问。

  • 模型:泛指从数据中学得的结果。

基本术语

数据:用于学习的输入内容,通常是一组或多组记录。

数据集:记录的集合。

学习、训练:从数据集中学习模型的过程,通过执行某个学习算法完成。

  • 训练集:用于训练的数据集合。
  • 测试集:用于通过模型预测结果的数据集合,评估模型优劣。
  • 验证集:用于纠正和强化模型的数据集合
类别 验证集 测试集
是否参与训练
作用 多次使用,不断调整 仅仅在最终模型评估时使用

西瓜书(周志华的机器学习)中提到

一批关于西瓜的数据,如(色泽=青绿;根蒂=蜷缩;敲声=浊响)、(色泽=乌黑;根蒂=稍蜷;敲声=沉闷)……

其中每对括号内时一条记录,记录的集合为数据集。

  • 每条记录是关于一个对象的描述,称为一个样品。
  • 反映对象在某方面的表现或性质的事项,称为属性或特征。
    • 如色泽、根蒂、敲声
  • 属性的取值为属性值
    • 如青绿、乌黑、浊响
  • 属性所组成的空间称为属性空间、样本空间或输入空间。
    • 可以根据色泽、根蒂、敲声的取值确定一个对象,由这三者可组成向量,称为特征向量。

通常,令 D={x1,x2,...,xm}D=\{x_1,x_2,...,x_m\} 表示包含 mm 个样本的数据集,每个样本又由 dd 个属性描述,xi=(xi1,xi2,...,xid)x_i=(x_{i1},x_{i2},...,x_{id})dd 通常称为样本的维数,表示样本的属性个数。

通过学习得到模型,即可在没剖开一个西瓜之前,预测未知的西瓜。建立关系:

((色泽=青绿;根蒂=蜷缩;敲声=浊响),好瓜)((色泽=青绿;根蒂=蜷缩;敲声=浊响),好瓜)

  • 逗号前面是前面提过的特征向量。
  • 逗号后面是结果,称为标签(标记)。
  • (xi,yi)(x_i,y_i)
    • 由全部的标签组成的集合称为标记空间或输出空间。

只预测是“好瓜”或者“坏瓜”的任务称为分类任务。

  • 只涉及两个类别称为二分类,通常为正类和反类。
  • 涉及多个类别称为多分类。

预测连续的值,如西瓜的成熟度,称为回归任务。

当事先不知道某些概念,通过学习发现将西瓜分成若干组(如“外地瓜”“本地瓜”),称为聚类任务。

又根据训练数据是否拥有标记信息,学习任务可以分为监督学习和无监督学习。

  • 分类和回归是监督学习的代表
  • 聚类是无监督学习的代表

泛化:模型适用于新样本的能力。

经验误差与过拟合

分类错误的样本数占样本总数的比例称为错误率。

错误率=am,m个样本中有a个样本分类错误精度=1错误率=(1am)×100%错误率=\frac{a}{m},在m个样本中有a个样本分类错误\\ 精度=1-错误率=(1-\frac{a}{m})\times 100\%

误差:模型的实际预测输出与样本的真实输出之间的差异。

  • 训练集上的误差称为训练误差或经验误差
  • 新样本上的误差称为泛化误差

过拟合:模型对训练集的某些特殊特点过于重视,泛化性能下降。

  • 比如对西瓜数据集训练识别西瓜,西瓜大小被过于重视,认为小西瓜(或远处的西瓜)不是西瓜。

欠拟合:模型对训练样本的一般性质拟合不足。

  • 比如对西瓜数据集训练识别西瓜,认为绿色的都是西瓜。