深度学习之机器学习理论

发布时间 2024-01-11 21:40:06作者: ITJAMESKING

(一)机器学习(Machine Learning):就是让计算机具备从大量数据中学习的能力之一系列方法。机器学习使用很多统计方法,统计学家也称之为统计学习,但本质上起源于计算机科学的人工智能。

(二)机器学习的分类:机器学习主要分为两类,即监督学习(supervised learning)与非监督学习(unsupervised learning)。所谓监督学习,就是有目标的学习;而“非监督学习则为无目标的学习。

(三)机器学习的术语:由于样本数据主要用于训练计算机获得学习能力,故一般称其为训练数据(training data)。事实上机器学习的过程中,一般会将所有的数据分成两部分,其中大部分数据构成训练数据,少部分数据则作为测试数据(test data)以及验证数据(validation data)或保留数据(hold-out data)。在机器学习中被成为特征向量(feature vector)或预测变量(predictors),而则被称为响应变量(response)或目标(target);进一步地,对于分类问题,机器学习有时称离散的响应变量为标签(label)或类别(class)。

二、线性回归

线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。

多层线性回归是一种可以对多维数据进行分析的数据处理技术。它采用多个线性回归分析技术,允许单个独立线性回归分析被用于多个不同的因素。这种回归方式有助于对多维数据集进行解读。以某大学各个学院教授的工资数据为例,如果假定教授收入主要取决于他从事工作的时间,也就说工作时间越长收入越高。那么此时容易构建出一个简单线性模型

三、计量经济学方法——因果推断

(一)因果推断的原因与辛普森悖论:辛普森悖论(Simpson's paradox)是指统计学中在分组比较中都占优势的一方,在总评中有时反而是失势的一方这种现象,而导致出现辛普森悖论的关键因素是各个类别的非均匀性。仅基于线性关系的判断与决策,会由于反向因果(例如法治程度与经济水平正相关)和存在第三因素(例如雪糕销量与溺水人数正相关)导致其结果出现明显的错误。为此,学界常采用因果推断使得线性回归得到的结论更严谨——通过内生性检验(Endogeneity)、稳健性检验(Robustness)、识别策略(Identification Strategy)。

苏格兰哲学家大卫·休谟指出因果关系的三个核心要件:①X发生在Y之前(时间要件);②X与Y之间有相关关系(相关要件);③没有其他导致Y变化的因素(排他要素)。

(二)因果推断的常用方法:随机实验、自然实验、工具变量、断点回归(RDD)、双重差分法(DID)、匹配法、广义矩估计法(GMM)。

· 随机实验:将实验对象随机分为两个组,一组为实验组,一组为对照组。实验结束后对比两组因变量的差别。因为随机分组,尽管两组对象的其他潜在第三因素的值并不是完全一样。但是当数据量较大时,这些潜在第三因素的值会比较相似(大数定律),但是其问题在于成本较高无法进行社会实验。
· 自然实验:通过随机的“外力”将其作为对照组,近似于大自然进行的随机实验。然而理想的自然实验可遇而不可求,现实中常使用“准自然实验”。
· 工具变量:首先找到一个“只通过自变量影响因变量”的外力,用工具变量作为自变量,原来的自变量作为因变量获取拟合值;接着用刚才的拟合值作为自变量,原来的因变量作为因变量,获取自变量的系数。由此又被命名为最小二乘法2SLS。工具变量的使用条件为:①相关性:与自变量相关;②外生性:与其他潜在第三变量无关。
· 断点回归:断点回归的核心思想是断点附近,所有人的的其它特征都是相似的,唯一不同的是在断点在左侧还是右侧。因此,结果变量Y的差异完全由断点造成,可以认为断点回归是一种二元工具变量。

(三)内生性:自变量与其他潜在影响因素相关。从数学语言的角度,内生性是指模型的一个或多个解释变量与误差项存在相关关系。

(四)稳健性检验:常见的问题包括数据量太小/缺乏代表性→使用别的较大规模的数据;数据太老→使用更新的数据;内生性问题→改进识别策略,或者用不同的识别策略;作用机制不清晰→提供更多相关结果。

(五)工具变量:当存在其他潜在变量(遗漏变量),且我们感兴趣的自变量与遗漏变量相关(内生性问题)时,我们会引入工具变量,其基本要求是:工具变量只会通过自变量来影响因变量。工具变量的重点在于说清楚“排他要件”,一般情况下现在研究中多将“工具变量”作为稳健性检验的一种方法。