线性回归是一种用于连续型分布预测的机器学习算法。
其基本思想是通过拟合一个线性函数来最小化样本数据和预测函数之间的误差。

1. 概述

常见的线性回归模型就是：\(f(x) = w_0+w_1x_1+w_2x_2+...+w_nx_n\)这样的一个函数。
其中

\((w_1,w_2,...w_n)\)是模型的系数向量
\(w_0\)是截距
\((x_1, x_2,...,x_n)\)是样本数据（n是样本数据的维度）

简单来说，线性回归模型的训练就是通过样本数据来确定系数向量\((w_1,w_2,...w_n)\)和截距\(w_0\)的具体数值。
然后可以使用模型\(f(x)\)来预测新的样本数据。

2. 创建样本数据

首先，用scikit-learn中的自带的函数，就可以创建出适用于线性回归场景的样本数据。

from sklearn.datasets import make_regression
import matplotlib.pyplot as plt

fig, ax = plt.subplots(1, 1)

X, y = make_regression(n_samples=100, n_features=1, noise=10)
ax.scatter(X[:, 0], y, marker="o")
ax.set_title("样本数据")

plt.show()

通过 make_regression 函数可以帮助我们创建任意的回归样本数据。

具体使用可以参考之前的文章：TODO

3. 模型训练

训练线性回归模型，一般使用最小二乘法，而scikit-learn的linear_model模块中，
已经封装好了最小二乘法的训练算法。

首先，根据上面的样本数据，划分训练集和测试集。

from sklearn.model_selection import train_test_split

# 分割训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.1)

上面的代码按照9:1的比例划分了训练集和测试集。

然后，用基于最小二乘法的线性模型来训练数据。

from sklearn.linear_model import LinearRegression

# 初始化最小二乘法线性模型
reg = LinearRegression()
# 训练模型
reg.fit(X_train, y_train)

print("模型的系数向量：", reg.coef_)
print("模型的系数截距：", reg.intercept_)

# 运行结果：
模型的系数向量： [99.59241352]
模型的系数截距： 0.6889080586801999

reg.coef_就相当于前面的\((w_1,w_2,...w_n)\)
reg.intercept_就相当于前面的 \(w_0\)

这里的样本数据为了方便绘图，只有一个维度。
最后，我们把线性模型，训练集和测试集都绘制出来看看效果。

fig, ax = plt.subplots(1, 1)

# 训练集
ax.scatter(X_train[:, 0], y_train, marker="o", c="g")
# 测试集
ax.scatter(X_test[:, 0], y_test, marker="*", c="r")

# 线性模型
reg_x = np.array([-3, 3])
reg_y = reg.coef_ * reg_x + reg.intercept_
ax.plot(reg_x, reg_y, color="b")

plt.show()

上图中，蓝色的直线是在训练集上训练出来的线性模型；
绿色的圆点是训练集；红色的五角星是测试集。