机器学习基础入门：贝叶斯分类器

假设有 $N$ 个类别， $B=\{B_1,B_2,...,B_N\}$ ，现有样本 $A$ ，通过贝叶斯公式：

P(B_i\vert A)=\frac{P(B_i)P(A\vert B_i)}{\sum_{j=1}^nP(B_j)P(A\vert B_j)}

$P(B_i)$ $P (B_{i})$ ：类别 $B_i$ $B_{i}$ 发生的概率。
- 称作先验概率，表达了样本空间中各类样本所占的概率。
- 根据大数定律，当训练集包含充足的独立同分布样本时， $P(B_i)$ 可通过各类样本出现的频率来进行估计
$P(A\vert B_i)$ ：确定是 $B_i$ 类下，样本 $A$ 出现的概率。称作类条件概率。
$P(B_i\vert A)$ ：在样本 $A$ 出现下，属于类别 $B_i$ 的概率。称作后验概率。

类条件概率通过数据集进行训练，估计参数 $\theta_b$ 。

令 $D_i$ 表示训练集 $D$ 中第 $i$ 类样本组成的集合，假设样本是独立同分布，则参数 $\theta_b$ 对于数据集的似然是：

P(D_i\vert\theta_b)=\prod_{x\in D_i}P(x\vert\theta_b)

对 $\theta_b$ 进行极大似然估计，寻找最大化似然 $P(D_i\vert\theta_b)$ 的参数值 $\theta_b'$ 。

从 $\theta_b$ 的所有可能取值中，找到一个能使数据出现可能性最大的值。

连乘容易出现下溢，可以使用对数计算：

LL(\theta_b)=\log P(D_i\vert\theta_b)=\sum_{x\in D_i}\log P(x\vert\theta_b)

\theta_b'=\arg\max_{\theta_b}LL(\theta_b)

朴素贝叶斯分类器

一种基于贝叶斯理论的简单概率分类器。

朴素：输入变量的特征属性间具有独立性

由属性条件独立性：

P(B_i\vert A)=\frac{P(B_i)P(A\vert B_i)}{\sum_{j=1}^nP(B_j)P(A\vert B_j)}=\frac{P(B_i)}{P(A)}\prod_{i=1}^dP(A^{(i)}\vert B_i)

$d$ ：样本的属性个数。
$B_i$ ：第 $i$ 个类别。
$A^{(i)}$ ：样本 $A$ 的第 $i$ 个属性值。
对于所有类别， $P(A)$ 都相等。

所以朴素贝叶斯表达式写成：

f(A)=\arg\max_{B_i\in B}P(B_i)\prod_{j=1}^dP(A^{(j)}\vert B_i)

朴素贝叶斯的训练过程就是基于训练集 $D$ 来估计类先验概率 $P(B_i)$ ，并为每个属性估计条件概率 $P(A^{(j)}\vert B_i)$ 。

先验概率：

P(B_i)=\frac{\vert D_i\vert}{\vert D\vert}{}

离散属性下，设 $D_{B_i,A^{(j)}}$ 为第 $B_i$ 类，第 $j$ 个属性值为 $A^{(j)}$ 构成的集合，则条件概率可估计为：

P(A^{(j)}\vert B_i)=\frac{\vert D_{B_i,A^{(j)}}\vert}{\vert D_{B_i}\vert}{}

连续属性则考虑概率密度函数。

如果某个属性值在训练集中没有与某个类同时出现过，可能会出现概率值为零，此时需要做一些平滑。

常用拉普拉斯修正：

\hat{P}(B_i)=\frac{\vert D_i\vert+1}{\vert D\vert+N}

\hat{P}(A^{(j)}\vert B_i)=\frac{\vert D_{B_i,A^{(j)}}\vert+1}{\vert D_{B_i}\vert+N_j}

$N$ ：训练集中可能的类别数；
$N_j$ ：第 $j$ 个属性可能的取值数。

拉普拉斯修正避免了因训练集样本不充分而导致概率估值为零的问题，并且在训练集变大时，修正过程所引入的先验的影响也会逐渐变得可忽略，使得估值渐趋向于实际概率值。

正态贝叶斯分类器

正态贝叶斯分类器认为每一个分类的所有特征属性（即特征向量）服从多变量正态高斯分布，即：

P(x\vert C_k)=\frac{1}{\sqrt{(2\pi)^n\vert\sum_k\vert}}\exp\left(-\frac{1}{2}(x-\mu_k)^T\sum_k^{-1}(x-\mu_k)\right)

$\mu_k$ 表示第 $k$ 个分类对应的 $n$ 维均值向量；
$|\sum_k|$ 表示第 $k$ 个分类对应的 $n×n$ 的协方差矩阵 $\sum_k$ 的行列式的值。

正态贝叶斯分类器只能处理特征属性是连续数值的分类问题。但它认为特征属性直接不必独立，比朴素贝叶斯的使用条件宽。

同样，计算最大似然：

\hat{y}=\arg\max_{k\in\{1,...,k\}}P(x1,...,x_n\vert C_k)

化为对数似然函数：

ln(L)=-\frac{1}{2}\left[\ln(\vert\sum_k\vert)+(x-\mu_k)^T\sum_k^{-1}(x-\mu_k)+n\ln(2\pi)\right]\tag{1}

求式上极大值问题可以转换为求式中方括号内的极小值问题。

均值向量 $\mu_k$ 的第 $i$ 个特征属性 $\mu_{ki}$ 的极大似然估计为：

\hat{\mu}_{ki}=\frac{\sum_{j=1}^{N_k}x_{ki}^{(j)}}{N_k}

$x_{ki}^{(j)}$ ：训练样本中属于分类 $k$ 的第 $j$ 个样本的第 $i$ 个特征属性的值。
$N_k$ ：训练样本中属于分类 $k$ 的样本数。

\hat{\mu_k}=(\hat{\mu}_{k1}, ..., \hat{\mu}_{kn})^T\tag{2}

$n×n$ 的协方差矩阵 $\sum_k$ 的无偏估计形式为：

\hat{\sum}_k=\frac{1}{N_k-1}\left[\begin{matrix} cov_k^{(1,1)} & cov_k^{(1,2)} & ... & cov_k^{(1,n)} \\ cov_k^{(2,1)} & cov_k^{(2,2)} & ... & cov_k^{(2,n)} \\ \vdots & \vdots & \ddots & \vdots \\ cov_k^{(n,1)} & cov_k^{(n,2)} & ... & cov_k^{(n,n)} \end{matrix}\right] \tag{3}

其中 $cov_k^{(p,q)}$ 表示训练样本中第 $k$ 个分类所组成的数据集合中，第 $p$ 个特征属性与第 $q$ 个特征属性的协方差，如果 $p=q$ ，那么为方差。

\begin{matrix} cov_{k}^{(p,q)}&=&\sum_{j=1}^{N_k}[(x_{kp}^{(j)}-\hat{\mu}_{kp})(x_{kq}^{(j)}-\hat{\mu}_{kq})]\\ &=&\sum_{j=1}^{N_k}(x_{kp}^{(j)}x_{kq}^{(j)})-\hat{\mu}_{kq}\sum_{j=1}^{N_k}x_{kp}^{(j)}-\hat{\mu}_{kp}\sum_{j=1}^{N_k}x_{kq}^{(j)}+N_k\hat{\mu}_{kp}\hat{\mu}_{kq} \end{matrix}

正态贝叶斯分类器的执行步骤：

由训练样本数据估计每个分类的协方差矩阵（式3）和均值向量（式2）；
把协方差矩阵和均值向量代入到对数似然函数（式1）；
得到每个分类完整的对数似然函数；
预测样本时，将样本的特征属性分别代入全部分类的对数似然函数中，最大对数似然函数对应的分类就是该样本的分类结果。

基于OpenCV实现正态贝叶斯分类器

OpenCV 自带实现了 正态贝叶斯分类器 的类： NormalBayesClassifier。

例子-糖尿病预测数据集

数据集地址：https://aistudio.baidu.com/datasetdetail/33810

该数据集包含数据集中共包含768个样本，取后100个数据组成测试集。

数据集中每个样本有8种特征。Outcome 是样本的标签（即类别），0表示没有糖尿病，1表示患有糖尿病。

Pregnancies: 怀孕次数
Glucose：血浆葡萄糖浓度
BloodPressure：舒张压
SkinThickness：肱三头肌皮肤褶皱厚度
Insulin：两小时胰岛素含量
BMI：身体质量指数，即体重除以身高的平方
DiabetesPedigreeFunction：糖尿病血统指数，即家族遗传指数
Age：年龄

使用手搓的朴素贝叶斯分类器和 OpenCV 实现的正态贝叶斯分类器进行训练测试，结果如下：

Train Data imported: 668
正态贝叶斯分类器：
计算花费时长：0ms
Test Data imported: 100
正确率：0.76

Train Data imported: 668
朴素贝叶斯分类器：
计算花费时长：1ms
Test Data imported: 100
正确率：0.59

代码及数据集地址：Gitee - bayesClassifier

例子-鸢尾花数据集

数据集地址：

部分数据如下：

花萼长度	花萼宽度	花瓣长度	花瓣宽度	类别
6.4	2.8	5.6	2.2	2
5.0	2.3	3.3	1.0	1
4.9	2.5	4.5	1.7	2
4.9	3.1	1.5	0.1	0