计量经济学笔记-2一般回归分析和模型设定

发布时间 2023-05-25 21:05:32作者: 王大桃zzZ

2.一般回归分析和模型设定

问题1:

  • 辨别相关性是不是因果关系
    • 统计关系:预测关系
    • 经济关系:因果关系

问题2:

  • 一般归回分析和线性回归模型

问题3:

  • 线性回归模型的系数coefficients的经济意义

回归分析是研究变量Y和变量X之间关系的常用工具。

  • 用于考察X对Y的影响
  • 用X的信息预测Y

2.1.条件概率分布

联合分布函数很适合用来描述变量Y和变量X之间关系。联合分布函数有几个很好的性质:

  1. 如果\((Y,X')'\)是连续随机向量,X的边际概率密度函数是:$$f_X(x)=\int_{-\infty}^{\infty}f_{XY}(x,y)dy$$
  2. 再给定\(X=x\),Y的条件概率密度函数是:$$f_{Y|X}(y|x)=\frac{f_{XY}(x,y)}{f_X(x)}$$其中:\(f_X(x) \gt 0\)

如果给定了X,那么我们使用几个关键工具来分析这个关系:

  1. 条件均值(一阶矩): \(E(Y|x) \equiv E(Y|X=x)\)
  2. 条件方差(二阶矩): \(var(Y|x) \equiv var(Y|X=x)=E(Y^2|x)-[E(Y|x)]^2\)
  3. 条件偏度conditional skewness(三阶矩): \(S(Y|x)\equiv\frac{E(Y-E(Y|x)^3)|x]}{var(Y|x)^{3/2}}\)
  4. 条件峰度conditional kurtosis(四阶矩): \(K(Y|x)\equiv\frac{E(Y-E(Y|x)^4)|x]}{var(Y|x)^{2}}\)
  5. 条件\(\alpha\)-分位数conditonal α-quantile \(Q(x,α)\),有\(P[Y \le Q(X,\alpha)|X=x]=\alpha \in (0,1)\)

2.2.条件均值与回归分析

定义2.1 回归函数 Regression Function

条件均值\(E(Y|X)\)称为Y对X的回归函数。

可以得到如下几个性质:

  • 定理 2.1 \(E[E(Y|X)]=E(Y)\)
  • 定理 2.2 重复期望法则 \(E[G(X,Y)]=E\{E[G(X,Y)|X]\}\)
    • \(G(X<Y)\)给定的可测函数
    • 假设\(E[G(X<Y)]\)存在

回到最初的问题——如何用X来预测Y?

  • 上帝模式:\(G(X)=Y\)
  • 但是我们不是上帝,只能假设一个他们之间的函数,比如\(g(X)\)

那么,如何判断\(g(X)\)接近\(Y\)的程度呢?

定义2.2 均方误 Mean Squared Error(MSE)

假设用函数\(g(X)\)来预测\(Y\),均方误就是:\(MSE(g)=E[Y-g(X)]^2\)

当一个函数的\(MSE\)越小,说明这个函数预测\(Y\)的能力越好。

那什么函数的\(MSE\)最小呢?

  • 定理 2.3 MSE最优解是条件均值\(E(Y|X)\),即:$$E(Y|X)=arg \min_{g \in \Bbb F }MSE(g)$$
    • 其中,\(\Bbb F\)是所有可测的和平方可积的函数的集合 #todo

还可用平均绝对误差Mean Absolute Error(MAE)作为衡量准则,最优解是条件中位数

如何将这些特性用于预测Y呢?

定义 2.3 回归等式 Regression Identity

给定条件均值\(E(Y|X)\),总有$$Y=E(Y|X)+\epsilon$$其中:\(\epsilon\)称为回归扰动项 regression disturbance,满足\(E(\epsilon|X)=0\)

其中:

  • \(\epsilon\):称为噪声,代表随机变量\(Y\)中没有被条件均值\(E(Y|X)\)解释的部分
  • \(E(Y|X)\):称为信号,可以根据它用X来预测Y
  • 另外,还有一个性质是:\(E[\epsilon h(X)]=0\)
    • 意思是:不能用任何形式的函数\(h(X)\)来预测\(\epsilon\)的条件均值,无论线性还是非线性函数。
  • 如果\(var(\epsilon|X)=\sigma^2 \gt 0\),称\(\epsilon\)为条件同方差 conditional homoskedasticity
  • 如果\(var(\epsilon|X) \ne\sigma^2 \gt 0\),称\(\epsilon\)为条件异方差 conditional heteroskedasticity