一文读懂线性回归算法

发表于 2026-04-16 分类于机器学习基础

摘要：线性回归（Linear Regression）是机器学习领域最基础、最经典的算法。本文将从直观案例出发，系统梳理其数学原理、优化过程以及工程实践中的优缺点。

1. 什么是线性回归？

线性回归是监督学习中最基础的算法之一。它的核心思想是：假设输入特征 $x$ 与输出目标 $y$ 之间存在线性关系，通过历史数据拟合出一条最优的直线（或超平面），从而对未知数据进行预测。

一个直观的例子是房价预测：

💡 核心概念：
线性（Linear）：假设特征与目标之间存在线性关系（特征增加，目标按比例变化）。
回归（Regression）：寻找数据内在规律的过程，输出连续值。

线性回归的数学本质是一元一次方程的扩展。

$$y = wx + b$$

其中：

当影响目标的因素不止一个时（如面积、房间数、楼层、学区等），公式扩展为：

$$y = w_1x_1 + w_2x_2 + … + w_nx_n + b$$

或用向量形式表示：

$$y = \mathbf{w}^T\mathbf{x} + b$$

训练线性回归模型的核心是寻找最优的 $w$ 和 $b$，使得预测值与真实值的误差最小。

最常用的损失函数是均方误差（Mean Squared Error, MSE）：

$$MSE = \frac{1}{n}\sum_{i=1}^{n}(y_i - \hat{y}_i)^2$$

其中 $y_i$ 是真实值，$\hat{y}_i$ 是预测值。MSE 越小，模型拟合效果越好。

梯度下降（Gradient Descent）是最常用的优化算法：

$$w := w - \alpha \frac{\partial MSE}{\partial w}$$
$$b := b - \alpha \frac{\partial MSE}{\partial b}$$

在如今动辄千亿参数的 Transformer 大模型时代，线性回归显得朴素而经典。但正是从 $y = wx + b$ 这个简单的等式开始，人类赋予了计算机从历史数据中总结规律、并预测未来的能力。理解线性回归，是通往整个机器学习领域的必经之路。

如果你觉得这篇文章有帮助，欢迎分享给需要的朋友。