多元线性回归基础part1

发布时间 2023-12-06 15:18:23作者: Cr不是铬

发现新天地,欢迎访问

概念

回归分析是数据分析中最基础也是最重要的分析工具,绝大多数的数据分析问题,都可以使用回归的思想来解决。回归分析的任务就是,通过研究自变量X和因变量Y的相关关系,尝试去解释Y的形成机制,进而达到通过X去预测Y的目的。
常见的回归分析有五类:线性回归、0‐1回归、定序回归、计数回归和生存回归,其划分的依据是因变量Y的类型。本讲我们主要学习线性
回归。

三个关键词

  • 第一个关键词:相关性

file

  • 相关性≠ 因果性

file

  • 第二个关键词是:Y

file

  • 第三个关键词是:X

file

回归分析的使命

  • 使命1:回归分析要去识别并判断:哪些X变量是同Y真的相关,哪些不是。
    统计学中有一个非常重要的领域,叫做“变量选择”。(逐步回归法)
  • 使命2:去除了那些同Y不相关的X变量,那么剩下的,就都是重要的、有用
    的X变量了。接下来回归分析要回答的问题是:这些有用的X变量同Y的相关
    关系是正的呢,还是负的
  • 使命3:在确定了重要的X变量的前提下,我们还想赋予不同X不同的权重,
    也就是不同的回归系数,进而我们可以知道不同变量之间的相对重要性。

数据的分类

横截面数据

file

时间序列数据

file

面板数据

file

不同数据类型的处理方法

file
建模比赛中,前两种数据类型最常考到;面板数据较为复杂,是经管类学生在中级计量经济学中才会学到的模型。
横截面数据往往可以使用回归来进行建模,我们通过回归可以得到自变量与因变量之间的相关关系以及自变量的重要程度。
时间序列数据往往需要进行我们进行预测,时间序列模型的选择也很多,大家需要选择合适的模型对数据进行建模

一元线性回归入门

file
一元线性回归和之前的拟合某种意义上很相似。

对于线性的理解

注意:

  • 线性假定并不要求初始模型都呈上述的严格线性关系
  • 自变量与因变量可通过变量替换而转化成线性模型

比如:
file

都可以被称为线性模型!

使用线性回归模型进行建模前,需要对数据进行预处理。用Excel、Matlab、Stata等软件都可以.

file

excel的一些快捷操作最好要记住

回归系数的解释

file

可以看到,引入了新的自变量价格后,对回归系数的影响非常大!!!
原因:遗漏变量导致的内生性

假设u为无法观测的且满足一定条件的扰动项如果满足误差项u和所有的自变量xi均不相关,则称该回归模型具有外生性(如果相关,则存在内生性,内生性会导致回归系数估计的不准确,不满足无偏和一致性)

内生性的蒙特卡罗模拟

file


通过matlab来进行模拟绘图

%% 蒙特卡洛模拟:内生性会造成回归系数巨大误差
times = 300;%蒙特卡洛实验次数
R = zeros(times,1);%用来存储扰动项u和x1的相关系数
K = zeros(times,1); %用来存储遗漏了x2后,只用y对x1回归得到的回归系数

for i = 1 : times
    n = 30;%样本数据量
    x1 = -10 + rand(n,1)*20;%x1在-10 - 10上均匀分布,大小为30*1
    u1 = normrnd(0,5,n,1)-rand(n,1); %随机生成一组随机数
    x2 = 0.3*x1 + u1; %x2与x1的相关系数不确定,因此设计x2要加上u1这个随机数
    u = normrnd(0,1,n,1);%扰动项u服从标准正态分布
    y = 0.5 + 2*x1 + 5*x2 + u; %构造y(真实)
    k = (n*sum(x1.*y)-sum(x1)*sum(y))/(n*sum(x1.*x1)-sum(x1)*sum(x1));
    K(i) = k;
    u = 5*x2 + u;%因为我们回归中忽略的5*x2,所以扰动项要加上5*x2
    r = corrcoef(x1,u);%2*2的相关系数矩阵
    R(i) = r(2,1);
end
plot(R,K,'*');
xlabel("x1和u的相关系数")
ylabel("k的估计值")

file

可见,相关系数绝对值越大,代表内生性越大!

核心解释变量和控制变量

无内生性(no endogeneity)要求所有解释变量均与扰动项不相关这个假定通常太强,因为解释变量一般很多(比如,5-15个解释变量)且需要保证它们全部外生
是否可能弱化此条件?答案是肯定的,如果你的解释变量可以区分为核心解释变量控制变量两类

  • 核心解释变量:我们最感兴趣的变量,因此我们特别希望得到对其系数的一致估计(当样本容量无限增大时,收敛于待估计参数的真值)
  • 控制变量:我们可能对于这些变量本身并无太大兴趣;而之所以把它们也放入回归方程,主要是为了“控制住"那些对被解释变量有影响的溃漏因素在实际应用中,我们只要保证核心解释变量与其不相关即可

本文由博客一文多发平台 OpenWrite 发布!