机器学习基础入门：基础线性模型

基本形式

对于一个样本 $\pmb{x}=(x_1,x_2,...,x_d)$ ，其中 $x_i$ 为第 $i$ 个属性上的取值。

线性模型试图通过一个属性值与权值的线性组合进行预测：

f(x)=\omega_1x_1+\omega_2x_2+...+\omega_dx_d+b

向量模式写成：

f(\pmb{x})=\pmb{\omega}^T\pmb{x}+b\\ \pmb{\omega}=(\omega_1,\omega_2,...,\omega_d)

线性回归对于样本 $(x_i,y_i)$ ，试图使：

f(x_i)=\omega x_i+b近似于y_i

通过均方误差评估 $f(x_i)$ 与 $y_i$ 之间的差别，试图让均方误差取最小值：

(w^*,b^*)=\arg\min_{(w,b)} \sum_{i=1}^m(f(x_i)-y_i)^2=\arg\min_{(w,b)} \sum_{i=1}^m(y_i-f(x_i))^2\\ (w^*,b^*)=\arg\min_{(w,b)} \sum_{i=1}^m(y_i-wx_i-b)^2

基于均方误差最小值来进行模型求解，称为最小二乘法。

令：

E_{(w,b)}=\sum_{i=1}^m(y_i-wx_i-b)^2

上式分别对 $\omega$ 和 $b$ 求导：

\frac{\partial E_{(\omega,b)}}{\partial\omega}=2(\omega\sum_{i=1}^mx_i^2-\sum_{i=1}^m(y_i-b)x_i),\\ \frac{\partial E_{(\omega,b)}}{\partial b}=2(mb-\sum_{i=1}^m(y_i-wx_i))

使导数为0，得到：

\omega=\frac{\sum_{i=1}^my_i(x_i-\overline{x})}{\sum_{i=1}^mx_i^2-\frac{1}{m}(\sum_{i=1}^mx_i)^2}\\ \ \\ b=\frac{1}{m}\sum_{i=1}^m(y_i-\omega x_i)

对于一个一元线性回归数据集进行回归计算，效果如下：

一元线性回归

该例子相关的数据集以及代码已置于仓库：Gitee

用梯度下降求解多元线性回归。

梯度下降法的基本思想可以类⽐为⼀个下⼭的过程。
- 最快的下山方式就是找到当前位置最陡峭的⽅向，然后沿着此方向向下⾛，对应到函数中，就是找到给定点的梯度，然后朝着梯度相反的⽅向，就能让函数值下降的最快。
- 反复求取梯度，最后就能到达局部的最⼩值。

在单变量的函数中，梯度其实就是函数的微分，代表着函数在某个给定点的切线的斜率；

在多变量函数中，梯度是⼀个向量（向量有方向），梯度的方向就指出了函数在给定点的上升最快的方向。

梯度下降公式为：

x^{i+1}=x^i-\alpha\frac{\partial}{\partial x_i}f(x^i)

如：

引入损失函数，度量拟合的程度。损失函数极小化，意味着拟合程度最好，对应的模型参数即为最优参数。线性回归中假设模型函数为： $f(x_1,...,x_n)=w_0+w_1x_1+w_2x_2+...+w_nx_n$

在线性回归中，损失函数通常为样本输出和假设函数的差取平方（或者带系数）。比如对于 $m$ 个样本 $(\pmb{x_i},y_i)(i = 1, 2, ...m)$ ，采⽤线性回归，假设损失函数为：

Loss(w_0,w_1,...,w_n)=\frac{1}{2m}\sum_{j=0}^m(f(x_0^{(j)},x_1^{(j)},...,x_n^{(j)})-y_j)^2

对于上述损失函数的梯度为：

\frac{\partial}{\partial w_i}Loss(w_0,w_1,...,w_n)=\frac{1}{m}\sum_{j=0}^m(f(x_0^{(j)},x_1^{(j)},...,x_n^{(j)})-y_j)x_i^{(j)}

接着变化：

w_i=w_i-α\frac{1}{m}\sum_{j=0}^m(f(x_0^{(j)},x_1^{(j)},...,x_n^{(j)})-y_j)x_i^{(j)}

w_i=w_i-α\sum_{j=0}^m(f(x_0^{(j)},x_1^{(j)},...,x_n^{(j)})-y_j)x_i^{(j)}

随机梯度下降算法（Stochastic Gradient Descent）
- 每次只代⼊计算⼀个样本⽬标函数的梯度来更新权重，再取下⼀个样本重复此过程，直到损失函数值停⽌下降或损失函数值⼩于某个可以容忍的阈值。

w_i=w_i-α(f(x_0^{(j)},x_1^{(j)},...,x_n^{(j)})-y_j)x_i^{(j)}

小批量梯度下降算法（Mini-batch Gradient Descent）
- 每次从训练样本集上随机抽取⼀个⼩样本集，在抽出来的⼩样本集上采⽤FG迭代更新权重。

w_i=w_i-α\sum_{j=t}^{t+x-1}(f(x_0^{(j)},x_1^{(j)},...,x_n^{(j)})-y_j)x_i^{(j)}

随机平均梯度下降算法（Stochastic Average Gradient Descent）
- 在内存中为每⼀个样本都维护⼀个旧的梯度，随机选择第i个样本来更新此样本的梯度，其他样本的梯度保持不变，然后求得所有梯度的平均值，进⽽更新了参数。
- m 个样本

w_i=w_i-\frac{α}{m}(f(x_0^{(j)},x_1^{(j)},...,x_n^{(j)})-y_j)x_i^{(j)}

数据集具有14列：

使用 SAG 算法进行线性回归计算。

测试结果：

1
2
3

Data imported: 506
平均误差：4.57072
迭代时长：46.329s

多元线性回归

该例子相关的数据集以及代码已置于仓库：Gitee