【统计数据分析专论】01-Revisiting linear regression 重新审视线性回归

发布时间 2023-05-03 17:02:03作者: ryukirin

Revisiting linear regression 重新审视线性回归

课件翻译

Linear regression 线性回归

  • 最经典的统计模型之一,但仍被广泛使用

  • 用线性函数建模输入输出关系

    \[y_{i}=\beta_1 x_{i 1}+\beta_2 x_{i 2}+\cdots+\beta_p x_{i p}+\varepsilon_i \]

    其中:

    • \(y_{i}\) 是输出(预测目标)
    • \(\boldsymbol{X}_i=\left(x_{i 1}, \ldots, x_{i p}\right)^{\top}\) 是输入向量
    • \(\boldsymbol{\beta}=\left(\beta_1, \ldots, \beta_p\right)^{\top}\) 是参数(未知)
    • \(\varepsilon_i\) 是一个观测噪声(随机)并假设 \(\mathbb{E}\left[\epsilon_i\right]=0\)\(\mathbb{V}\left[\epsilon_i\right]=\sigma^2\)\(\left\{\epsilon_i\right\}_{i=1}^n\) 彼此独立(详情参见附录节)
  • 从包括 \(\left(x_i, y_i\right)\) 的数据集中估算 \(\beta_i\)

例子

  • y:销售量,x:产品信息
  • y:燃料效率,x:引擎的设计
  • y:电力消耗,x:电力消耗历史,温度
  • y:毒性,x:化学成分信息

二维输入图

  • 每个黑点都对应着 \((x_i,y_i)\)
  • 红色平面表示 \(\boldsymbol{X}^{\top}\boldsymbol{\beta}\)
  • 黑点和红色平面之间的差距就是 \(\varepsilon_i\)

向量矩阵符号

  • 训练数据集 \(\left\{\left(x_{i},y_{i}\right)\right\}_{i=1}^{n}\)

    \[\boldsymbol{X}=\left[\begin{array}{c} \boldsymbol{x}_{1}^{\top} \\ \vdots \\ \boldsymbol{x}_{n}^{\top} \end{array}\right]=\left[\begin{array}{ccc} x_{11} & \cdots & x_{1 p} \\ \vdots & & \vdots \\ x_{n 1} & \cdots & x_{n p} \end{array}\right] \in \mathbb{R}^{n \times p}, \boldsymbol{y}=\left[\begin{array}{c} y_{1} \\ \vdots \\ y_{n} \end{array}\right] \in \mathbb{R}^{n} \]

  • 模型也可以被写成

    \[\boldsymbol{y}=\boldsymbol{X}\boldsymbol{\beta}+\boldsymbol{\varepsilon} \]

    其中 \(\boldsymbol{\beta}=\left[\beta_{1}, \ldots, \beta_{p}\right]^{\top}\)\(\boldsymbol{\varepsilon}=\left[\varepsilon_{1}, \ldots, \varepsilon_{n}\right]^{\top}\)

    • 注意 \(\boldsymbol{y}\) 是一个随机变量,因为 \(\boldsymbol{\varepsilon}\) 是一个随机变量
    • \(\mathbb{E}[\varepsilon]=\mathbf{0}\)\(\mathbb{V}[\varepsilon]=\sigma^{2} \boldsymbol{I}\)\(\boldsymbol{I}\) 是单位矩阵)

Least-squares estimator (LSE) 最小二乘估计

  • 误差平方和

    \[\begin{aligned} \sum_{n}^{i=1} (y_i-x_i^{\top}\beta)^2 & = \begin{bmatrix}y_1-x_1^{\top}\beta&\cdots&y_n-x_n^{\top}\beta\end{bmatrix}\begin{bmatrix} y_1-x_1^{\top}\beta\\\vdots \\y_n-x_n^{\top}\beta\end{bmatrix}\\ & = (\boldsymbol{y}-\boldsymbol{X}\boldsymbol{\beta})^{\top}(\boldsymbol{y}-\boldsymbol{X}\boldsymbol{\beta})\\ & = \begin{Vmatrix} \boldsymbol{y}-\boldsymbol{X}\boldsymbol{\beta} \end{Vmatrix}^{2} \end{aligned} \]

  • 最小二乘估计

    \[\hat{\boldsymbol{\beta}} =\underset{\beta }{argmin} \begin{Vmatrix} \boldsymbol{y}-\boldsymbol{X}\boldsymbol{\beta} \end{Vmatrix}^{2} \]

    这是一个凸二次最小化问题,可以解析求解

Closed Form Solution of LSE 最小二乘估计的闭式解

  • 取误差平方和的导数

    \[\frac{\partial}{\partial \boldsymbol{\beta}}\|\boldsymbol{y}-\boldsymbol{X} \boldsymbol{\beta}\|^{2} \]

  • 因为 \(\|\boldsymbol{y}-\boldsymbol{x} \boldsymbol{\beta}\|^{2}\) 是凸函数,最小值可以通过将导数设置为0来确定

    \[\begin{aligned} \frac{\partial}{\partial \boldsymbol{\beta}}\|\boldsymbol{y}-\boldsymbol{X} \boldsymbol{\beta}\|^{2} & = \frac{\partial}{\partial \boldsymbol{\beta}}(\boldsymbol{y}-\boldsymbol{X} \boldsymbol{\beta})^{\top}(\boldsymbol{y}-\boldsymbol{X} \boldsymbol{\beta})\\ & = \frac{\partial}{\partial \boldsymbol{\beta}}(\boldsymbol{y}^{\top }\boldsymbol{y}-\boldsymbol{y}^{\top }\boldsymbol{X}\boldsymbol{\beta}-(\boldsymbol{X}\boldsymbol{\beta})^{\top}\boldsymbol{y}-(\boldsymbol{X}\boldsymbol{\beta})^{\top}(\boldsymbol{X}\boldsymbol{\beta})) \end{aligned} \]

    其中

    \[\begin{aligned} (\boldsymbol{X}\boldsymbol{\beta})^{\top}\boldsymbol{y} & = \boldsymbol{\beta}^{\top}\boldsymbol{X}^{\top}\boldsymbol{y}\\ \boldsymbol{y}^{\top}\boldsymbol{X}\boldsymbol{\beta} & = \boldsymbol{\beta}^{\top}(\boldsymbol{y}^{\top}\boldsymbol{X})^{\top}\\ & = \boldsymbol{\beta}^{\top}\boldsymbol{X}^{\top}\boldsymbol{y} \end{aligned} \]

    \[\begin{aligned} \frac{\partial}{\partial \boldsymbol{\beta}}\|\boldsymbol{y}-\boldsymbol{X} \boldsymbol{\beta}\|^{2} & = \frac{\partial}{\partial \boldsymbol{\beta}}(\boldsymbol{y}-\boldsymbol{X} \boldsymbol{\beta})^{\top}(\boldsymbol{y}-\boldsymbol{X} \boldsymbol{\beta})\\ & = \frac{\partial}{\partial \boldsymbol{\beta}}(\boldsymbol{y}^{\top }\boldsymbol{y}-\boldsymbol{y}^{\top }\boldsymbol{X}\boldsymbol{\beta}-(\boldsymbol{X}\boldsymbol{\beta})^{\top}\boldsymbol{y}-(\boldsymbol{X}\boldsymbol{\beta})^{\top}(\boldsymbol{X}\boldsymbol{\beta}))\\ & = \frac{\partial}{\partial \boldsymbol{\beta}}(\boldsymbol{y}^{\top }\boldsymbol{y}-2\boldsymbol{\beta}^{\top}\boldsymbol{X}^{\top}\boldsymbol{y}-(\boldsymbol{X}\boldsymbol{\beta})^{\top}(\boldsymbol{X}\boldsymbol{\beta}))\\ & = -2\boldsymbol{X}^{\top}\boldsymbol{y}+2\boldsymbol{X}^{\top}\boldsymbol{X}\boldsymbol{\beta} \end{aligned} \]

    \[\begin{aligned} -2\boldsymbol{X}^{\top}\boldsymbol{y}+2\boldsymbol{X}^{\top}\boldsymbol{X}\boldsymbol{\beta} & = 0 \end{aligned} \]

    \[\begin{aligned} \boldsymbol{X}^{\top}\boldsymbol{X}\boldsymbol{\beta} & = \boldsymbol{X}^{\top}\boldsymbol{y} \end{aligned} \]

    假设 \((\boldsymbol{x}^{\top}\boldsymbol{x})^{-1}\) 存在,我们得到LSE为

    \[\hat{\boldsymbol{\beta}}=(\boldsymbol{X}^{\top}\boldsymbol{X})^{-1}\boldsymbol{X}^{\top}\boldsymbol{y} \]

    即正规方程

Estimation Bias and Variance 估计偏差和方差

  • \(\boldsymbol{y}\) 是随机的, \(\hat{\boldsymbol{\beta}}=(\boldsymbol{X}^{\top}\boldsymbol{X})^{-1}\boldsymbol{X}^{\top}\boldsymbol{y}\) 也是随机的

    对具有随机性的数据进行的估计也包含随机性

    • \(\hat{\boldsymbol{\beta}}\) 遵循一些分布,从中我们只能获得一个使用给定数据集计算的实现

      因为 \(\mathbb{E}[\boldsymbol{y}]=\mathbb{E}[\boldsymbol{X} \boldsymbol{\beta}+\varepsilon]=\boldsymbol{X} \boldsymbol{\beta}\) ,有

      \[\begin{aligned} \mathbb{E}[\boldsymbol{\hat{\beta}}] & = \mathbb{E}[(\boldsymbol{X}^{\top}\boldsymbol{X})^{-1}\boldsymbol{X}^{\top}\boldsymbol{y}]\\ & = (\boldsymbol{X}^{\top}\boldsymbol{X})^{-1}\boldsymbol{X}^{\top}\mathbb{E}[\boldsymbol{y}]\\ & = (\boldsymbol{X}^{\top}\boldsymbol{X})^{-1}\boldsymbol{X}^{\top}\boldsymbol{X}\boldsymbol{\beta} \end{aligned} \]

      因为

      \[(\boldsymbol{X}^{\top}\boldsymbol{X})^{-1}\boldsymbol{X}^{\top}\boldsymbol{X}=\boldsymbol{I} \]

      \[\mathbb{E}[\boldsymbol{\hat{\beta}}] = \boldsymbol{\beta} \]

      因为当 \(\boldsymbol{M}\) 为常数矩阵且 \(\boldsymbol{a}\) 为随机向量时,有

      \[\mathbb{V}[\boldsymbol{M} \boldsymbol{a}]=\boldsymbol{M} \mathbb{V}[\boldsymbol{a}] \boldsymbol{M}^{\top} \]

      \(\mathbb{V}[\varepsilon]=\sigma^{2} \boldsymbol{I}\)

      \[\begin{aligned} \mathbb{V}[\boldsymbol{\hat{\beta}}] & = \mathbb{V}[(\boldsymbol{X}^{\top}\boldsymbol{X})^{-1}\boldsymbol{X}^{\top}\boldsymbol{y}]\\ & = (\boldsymbol{X}^{\top}\boldsymbol{X})^{-1}\boldsymbol{X}^{\top}\mathbb{V}[\boldsymbol{y}]\boldsymbol{X}(\boldsymbol{X}^{\top}\boldsymbol{X})^{-1}\\ & = (\boldsymbol{X}^{\top}\boldsymbol{X})^{-1}\boldsymbol{X}^{\top}\sigma^{2} \boldsymbol{I}\boldsymbol{X}(\boldsymbol{X}^{\top}\boldsymbol{X})^{-1}\\ & = \sigma^{2}(\boldsymbol{X}^{\top}\boldsymbol{X})^{-1}\boldsymbol{X}^{\top}\boldsymbol{X}(\boldsymbol{X}^{\top}\boldsymbol{X})^{-1}\\ & = \sigma^{2}(\boldsymbol{X}^{\top}\boldsymbol{X})^{-1} \end{aligned} \]

    • 这种分布的性质在统计学中得到了广泛的研究,因为它有助于讨论LSE的优势(在假设检验中也很有用,尽管本课没有讨论它)

      • 在这里,我们考虑的是 \(\hat{\beta}\)

Estimation Bias and Estimation Variance 估计偏差和估计方差

上边一节已经推导过了

  • \(\hat{\beta}\) 被称作无偏估计量
  • 估计方差的方程有助于评估估计器的不确定性
  • 高斯-马尔可夫定理(详情见附录)
    • LSE在所有无偏线性估计器中具有最小的估计方差,由此LSE被称为best linear unbiased estimator最佳线性无偏估计器(BLUE)

附录

范数

\(\boldsymbol{a}=\left(a_{1}, \ldots, a_{n}\right)^{\top}\) 时范数为

\[\|\boldsymbol{a}\|=\sqrt{a_{1}^{2}+\cdots+a_{n}^{2}} \]

向量求导

一般来说,对于函数f相对于向量 \(\boldsymbol{v}=\left(v_{1}, \ldots, v_{n}\right)\)

\[\frac{\partial f(\boldsymbol{v})}{\partial \boldsymbol{v}}=\left[\begin{array}{c} \frac{\partial f(\boldsymbol{v})}{\partial v_{1}} \\ \vdots \\ \frac{\partial f(\boldsymbol{v})}{\partial v_{n}} \end{array}\right] \]

对于常用的向量求导,参见Matrix Cookbook 2.4

期望与方差

  • 对于连续的随机变量 \(x\in \mathbb{R}\)

    \[\mathbb{E}[x]=\int_{x} x p(x) \mathrm{d} x \]

    如果x是离散变量 \(x\in \mathcal{X}\)\(\mathcal{X}\) 是一组候选值

    \[\mathbb{E}[x]=\sum_{x \in \mathcal{X}} x p(x) \]

  • 方差

    \[\mathbb{V}[x]=\mathbb{E}\left[(x-\mathbb{E}[x])^{2}\right] \]

    两个随机变量x和y的协方差为

    \[\operatorname{Cov}(x, y)=\mathbb{E}[(x-\mathbb{E}[x])(y-\mathbb{E}[y])] \]

期望与协方差矩阵

  • \(\mathbb{E}\) 表示随机变量的期望值,对于随机变量的向量 \(\boldsymbol{a}=\left(a_{1}, \ldots, a_{n}\right)^{\top}\) ,有

    \[\mathbb{E}[\boldsymbol{a}]=\left[\begin{array}{c} \mathbb{E}\left[a_{1}\right] \\ \vdots \\ \mathbb{E}\left[a_{n}\right] \end{array}\right] \]

  • 对于随机变量的向量 \(\boldsymbol{a}=\left(a_{1}, \ldots, a_{n}\right)^{\top}\) ,协方差 \(\mathbb{V}[\mathbf{a}]\)

    \[\mathbb{V}[\mathbf{a}]=\mathbb{E}\left[(\mathbf{a}-\mathbb{E}[\mathbf{a}])(\boldsymbol{a}-\mathbb{E}[\mathbf{a}])^{\top}\right] \]

    注意, \(\mathbb{V}[\mathbf{a}]\)\(i\)\(j\) 元素对应于协方差\(a_i\)\(a_j\)

    例如, \(\operatorname{Cov}\left(a_{i}, a_{j}\right)=\mathbb{E}\left[\left(a_{i}-\mathbb{E}\left[a_{i}\right]\right)\left(a_{j}-\mathbb{E}\left[a_{j}\right]\right)\right]\)

线性变换向量的协方差矩阵

\(\boldsymbol{M}\) 为常数矩阵且 \(\boldsymbol{a}\) 为随机向量时,有

\[\mathbb{V}[\boldsymbol{M} \boldsymbol{a}]=\boldsymbol{M} \mathbb{V}[\boldsymbol{a}] \boldsymbol{M}^{\top} \]

这可以通过 \(\mathbb{V}\) 的定义来证明

\[\begin{aligned} \mathbb{V}[\mathbf{M a}] & =\mathbb{E}\left[(\mathbf{M a}-\mathbb{E}[\mathbf{M a}])(\boldsymbol{M a}-\mathbb{E}[\mathbf{M a}])^{\top}\right] \\ & =\boldsymbol{M} \mathbb{E}\left[(\mathbf{a}-\mathbb{E}[\mathbf{a}])(\boldsymbol{a}-\mathbb{E}[\mathbf{a}])^{\top}\right] M^{\top} \\ & =\boldsymbol{M}[\mathbf{a}] M^{\top} \end{aligned} \]

矩阵的不等式

  • 矩阵 \(\boldsymbol{M}\) 的不等式

    \[\boldsymbol{M}≥0 \]

    将其表示为半正定矩阵

    \[\boldsymbol{x}^{\top}\boldsymbol{M}\boldsymbol{x}≥0 \]

    对于 \(\forall\boldsymbol{x}\) 等价地, \(\boldsymbol{M}\) 的所有特征值都是非负的

  • 那么, \(\boldsymbol{A}≥\boldsymbol{B}\) 表示 \(\boldsymbol{A}-\boldsymbol{B}≥0\) ,这意味着 \(\boldsymbol{A}-\boldsymbol{B}\) 是半正定的

高斯-马尔可夫定理

  • 假设一个矩阵 \(\boldsymbol{C}\in \mathbb{R}^{p×n}\) 满足

    \[\boldsymbol{\beta} = \mathbb{E}[\boldsymbol{C}\boldsymbol{y}] \]

    • \(\boldsymbol{C}\boldsymbol{y}\) 称为无偏线性估计量,因为它是 \(\boldsymbol{y}\) 的无偏线性变换
    • \(\boldsymbol{C}=(\boldsymbol{X}^{\top}\boldsymbol{X})^{-1}\boldsymbol{X}^{\top}\) 时, \(\boldsymbol{C}\boldsymbol{y}\) 为LSE
    • \(\boldsymbol{\beta}=\mathbb{E}[\boldsymbol{C}(\boldsymbol{X} \boldsymbol{\beta}+\varepsilon)] \Rightarrow \boldsymbol{\beta}=\boldsymbol{C} \boldsymbol{X} \boldsymbol{\beta} \Rightarrow \mathbf{I}=\boldsymbol{C} \boldsymbol{X}\) 时,任何满足 \(\mathbf{I}=\boldsymbol{C} \boldsymbol{X}\)\(\boldsymbol{C}\) 都会变成无偏(并且可以存在)
  • 高斯-马尔可夫定理保证(省略证明

    \[\mathbb{V}[\hat{\boldsymbol{\beta}}] \leq \mathbb{V}[\boldsymbol{C y}] \]

习题

Exercise 0: Short Quiz

在适当的假设下,最小二乘估计量的期望值等于真实值。通常,具有这种性质的估计量称为[(A)]估计量。什么是[(A)]?

  • 无偏估计量

Exercise 1

证明 \(\mathbb{V}[\boldsymbol{\hat{\beta}}] = \sigma^{2}(\boldsymbol{X}^{\top}\boldsymbol{X})^{-1}\)

  • 上边已经证明过了

    \[\begin{aligned} \mathbb{V}[\boldsymbol{\hat{\beta}}] & = \mathbb{V}[(\boldsymbol{X}^{\top}\boldsymbol{X})^{-1}\boldsymbol{X}^{\top}\boldsymbol{y}]\\ & = (\boldsymbol{X}^{\top}\boldsymbol{X})^{-1}\boldsymbol{X}^{\top}\mathbb{V}[\boldsymbol{y}]\boldsymbol{X}(\boldsymbol{X}^{\top}\boldsymbol{X})^{-1}\\ & = (\boldsymbol{X}^{\top}\boldsymbol{X})^{-1}\boldsymbol{X}^{\top}\sigma^{2} \boldsymbol{I}\boldsymbol{X}(\boldsymbol{X}^{\top}\boldsymbol{X})^{-1}\\ & = \sigma^{2}(\boldsymbol{X}^{\top}\boldsymbol{X})^{-1}\boldsymbol{X}^{\top}\boldsymbol{X}(\boldsymbol{X}^{\top}\boldsymbol{X})^{-1}\\ & = \sigma^{2}(\boldsymbol{X}^{\top}\boldsymbol{X})^{-1} \end{aligned} \]

Exercise 2

\[\mathbf{X}=\left[\begin{array}{cc} x_{11} & x_{12} \\ \vdots & \vdots \\ x_{n 2} & x_{n 2} \end{array}\right] \]

假设 \(\mathbf{X}\) 满足

  • 每个维度的平均值为零:

    \(\bar{x}_{j}=\frac{1}{n} \sum_{i=1}^{n} x_{i j}=0(\text { for } j=1,2)\)

  • 每个维度的方差为一:

    \(\frac{1}{n} \sum_{i=1}^{n}\left(x_{i j}-\bar{x}_{j}\right)^{2}=\frac{1}{n} \sum_{i=1}^{n} x_{i j}^{2}=1(\text { for } j=1,2)\)

  • 两个维度的协方差为零:

    \(\frac{1}{n} \sum_{i=1}^{n}\left(x_{i 1}-\bar{x}_{1}\right)\left(x_{i 2}-\bar{x}_{2}\right)=\frac{1}{n} \sum_{i=1}^{n} x_{i 1} x_{i 2}=0\)

写出 \(\mathbb{V}[\boldsymbol{\hat{\beta}}]\)

  • \[\begin{aligned} \mathbb{V}[\boldsymbol{\hat{\beta}}] & = \sigma^{2}(\boldsymbol{X}^{\top}\boldsymbol{X})^{-1}\\ & = \sigma^{2}(\left[\begin{array}{cc} x_{11} & \cdots & x_{n1} \\ x_{12} & \cdots & x_{n 2} \end{array}\right]\left[\begin{array}{cc} x_{11} & x_{12} \\ \vdots & \vdots \\ x_{n 2} & x_{n 2} \end{array}\right])^{-1}\\ & = \sigma^{2}\left[\begin{array}{cc} \sum_{i=1}^{n} x_{i2}^2 & \sum_{i=1}^{n} x_{i1}x_{i2}\\ \sum_{i=1}^{n} x_{i1}x_{i2} & \sum_{i=1}^{n} x_{i2}^2 \end{array}\right]^{-1}\\ & = \sigma^{2}\left[\begin{array}{cc} n & 0\\ 0 & n \end{array}\right]^{-1}\\ & = \sigma^{2}\left[\begin{array}{cc} \frac{1}{n} & 0\\ 0 & \frac{1}{n} \end{array}\right]\\ \end{aligned} \]