原文连接：https://blog.csdn.net/weixin_43651049/article/details/122733618

1. 理解线性回归模型

回归模型研究的是因变量（目标）和自变量（预测器）之间的关系，因变量可以是连续也可以离散，如果是离散的就是分类问题。思考房价预测模型，我们可以根据房子的大小、户型、位置、南北通透等自变量预测出房子的售价，这是最简单的回归模型，在初中里面回归表达式一般这样写，其中x是自变量，y是因变量，w是特征矩阵，b是偏置。

2. 回归问题

各个数据点都沿着一条主轴来回波动的问题都算是回归问题。

2.1 回归和分类

回归问题和分类问题最大的区别在于预测结果：

连续——回归

离散——分类

根据预测值类型的不同，预测结果可以分为两种：连续和离散，结果是连续的就是预测问题。

“连续”不是一个简单的形容词，而是有着严格的数学定义。最直接的例子就是时间，时间当然是连续的，连续型数值在编程时通常用int和float类型来表示，包括线性连续和非线性连续两种。相比之下，离散型数值的最大特征是缺乏中间过渡值，所以总会出现“阶跃”的现象，譬如“是”和“否”，通常用bool类型来表示。

3. 预测未来

回归问题是一类预测连续值的问题，而能满足这样要求的数学模型称作回归模型。

机器学习的回归模型预测未来的条件：需要有充足的历史数据。只要找到相关联的线索，就能够推理出最终的结果。预测难在待预测对象与什么相关是未知的，但其中的关联关系藏在历史数据之中，需要通过机器学习算法把它挖掘出来。

从数学角度来看，就是对输入数据点的拟合。

3.1 机器学习实现预测的流程

墙体坍塌可能由许多偶然因素导致，我们都不是土木专家，不妨凭感觉随手列出几条可能导致墙坍塌的因素：譬如可能与砌墙的材质有关，土坯墙总比水泥墙容易垮塌；可能与使用时间的长短有关；可能与承建商有关，喜欢偷工减料的工程队容易出“豆腐渣工程”；还有一些外部环境因素，譬如整天风吹雨淋的墙容易垮塌；最后就是墙体坍塌之前总会有一些早期迹象，譬如已经出现很多裂缝等。

上面所列因素有三种情况：与坍塌密切相关，与坍塌有点关系，以及与坍塌毫无瓜葛。如果人工完成预测任务，当然最重要的工作就是找出哪些是密切相关的，放在第一位；哪些是有点关系的，放在参考位置；哪些毫无瓜葛，统统删掉。可是我们又怎么知道哪些因素有哪些关系呢？这时我们就可以制作一张调查表，把砌墙用的什么材料、已经用了多久、出现了多少条裂缝等情况一一填进去，这就是前面所说的数据集中每一条样本数据的维度。就像商家很喜欢通过网上问卷来了解用户偏好一样，我们也利用调查表来了解墙体坍塌有什么“偏好”。