数据统计与可视化复习总结（二）：非参数检验、生存分析-526互联

数据统计与可视化课程总结（一）：大数定理与数理统计 - 孤飞 - 博客园 (cnblogs.com)

前面所介绍的各种检验法，是在总体分布类型已知的情况下，对其中的未知参数进行检验统称为参数检验.

在实际问题中，有时我们并不能确切预知总体服从何种分布，这时就需要根据来自总体的样本对总体分布进行推断，以判断总体服从何种分布, 这类统计检验称为非参数检验.解决这类问题的工具是英国统计学家K.皮尔逊在1900年发表的一篇文章中引进的所谓$\chi^2$检验法，不少人把此项工作视为近代统计学的开端.

非参数检验

分布拟合优度检验

卡方检验

卡方检验的基本思想

$\chi^2$检验法是在总体X 的分布未知时, 根据来自总体的样本,检验关于总体分布的假设的一种检验方法.
具体进行检验时，先提出原假设：

\[H_0:总体X的分布函数为F(x). \]

如果总体分布为离散型，则假设具体为

\[H_{0}: \text { 总体 } X \text { 的分布律为 } P\left\{X=x_{i}\right\}=p_{i}, i=1,2, \cdots ; \]

如果总体分布为连续型，则假设具体为

\[H_{0} \text { : 总体 } X \text { 的概率密度函数为 } f(x) \text {. } \]

然后根据样本的经验分布和所假设的理论分布之间的吻合程度来决定是否接受原假设, 这种检验通常称作拟合优度检验，它是一种非参数检验.
一般地，我们总是根据样本观察值用直方图和经验分布函数，推断出可能服从的分布，然后作检验.

卡方检验的基本原理和步骤

提出原假设H_0:总体X的分布函数为F(x).
将总体X的取值方位分成k个互不相交的小区间，记为$A_1,A_2,...,A_k$,如可取为

\[\left(a_{0}, a_{1}\right],\left(a_{1}, a_{2}\right], \cdots,\left(a_{k-2}, a_{k-1}\right],\left(a_{k-1}, a_{k}\right) \]
其中 $ a_{0} $可取 $ -\infty$, $a_{k} $ 可取 $+\infty $. 区间的划分视具体情况而定, 使每个小区间所含样本值个数不小于5,而区间个数k不要太大也不要太小.
把落入第$i$ 个小区间$A_i$的样本值的个数记作$f_i$称为组频数，所有组频数之和$f_1+f_2+...+f_k$等于样本容量n.

皮尔逊证明了下列定理：
定理当n充分大 $ (n \geq 50)$ 时, $\chi^{2}$近似服从$\chi^{2}(k-1) $ 分布.

根据定理, 对给定的显著性水平 $ \alpha$ , 确定 $l$ 值, 使 $ P\left{\chi^{2}>l\right}=\alpha$ , 查 $\chi^{2} $ 分布表得, $l=\chi_{\alpha}^{2}(k-1)$ , 所以拒绝域为$\chi^{{2}>\chi_{\alpha}}(k-1) $.

通常是一个单边（右侧）检验。双边的情况下，左侧检验“too good to be true”

若由所给的样本值 $ x_{1}, x_{2}, \cdots, x_{n}$ 算得统计量 $ \chi^{2} $ 的实测值落入拒绝域, 则拒绝原假设 $H_{0}$ , 否则就认为差异不显著而接受原假设 $ H_{0}$ .

总体含未知参数的情形

OR卡方检验：ODDS RATIO CHI SQUARE TEST

几率

在统计学中，列联表Contingency tables（也称为交叉表或交叉列表）是一种矩阵式的表格，它可以显示变量的（多变量）频率分布。

注：概率之比的对数称为logit 函数它是逻辑回归的基础

与odds 相关的另一个概念 OR
OR值（ odds ratio ）又称几率比、比值比、优势比，主要指病例组中暴露人数与
非暴露人数的比值除以对照组中暴露人数与非暴露人数的比值，是流行病学研究中
病例对照研究中的一个常用指标

有三种方法可以确定比值比或其对数是否具有统计学意义：

卡方检验

常用于检验行和列变量之间是否相关的检验方法是卡方检验。卡方检验首先假设行和列变量之间是相互独立的，并得到期望频数，通过比较所有期望频数和实际观测频数的差异来构造一个卡方统计量，如果卡方统计量大于临界值，则说明差异过大，因而假设不成立，行变量和列变量不相互独立；反之，则认为行和列变量相互独立。卡方统计量的计算公式为：

\[\chi^{2} = \sum_{i = 1}^{r} \sum_{j = 1}^{c} \frac{\left(f_{i j}-f_{i j}^{e}\right)^{2}}{f_{i j}^{e}} \]

$f_{i j} $ 表示实际观测频数;$f_{i j}^{e} $表示期望频数;r和c分别代表行和列变量的各类个数

样本	非参数检验（定类）	非参数检验（定序）	参数检验
单一样本	卡方拟合优度检验	符号检验	单样本z/t检验
2个独立样本	卡方独立性检验	中位数检验秩和检验	2个独立样本t检验
2个配对样本	麦克勒玛检验	符号秩检验	配对样本t检验
k个独立样本	卡方独立性检验	KW H检验	单因素方差分析
2个及以上变量		弗里德曼检验	单因素重复方差分析
相关性		斯皮尔曼相关系数	皮尔森相关系数
分布		KS检验

对于二项分布检验

p值是发现比观察值“更极端”的可能性。

如果test prop = 0.5，采用双侧检验，否则单侧检验。

Binomial Test – A further explanation：二项分布—进一步的解释
如果总体比例为0.5，我们选取10个观察结果，最可能的结果是5次成功:P(B=5）≈0.24。4或6次成功也是可
能的结果(P≈0.2)。发现两次或更少成功的概率是0.055。这是单侧p值。现在，非常低或非常高的成功概
率都是不可能的结果，都应该让我们对零假设产生怀疑。因此，我们考虑了相反结果的p值——8次或更多的成
功——也就是0.055。
就像这样，我们得到了双边p值为0.11。如果我们抽取1000个样本而不是1个，那么当总体比例为0.5时，大
约11%的样本会产生2(-)或8(+)次成功。我们的样本结果应该出现在一个合理的百分比的样本中。由于11%
的概率不是很小，我们的样本并不能反驳原假设。

对于N = 100的样本，根据中心极限定理，二项分布实际上与正态分布无异。结果是，对于较大的样本量，对单个比例的z检验(使用标准正态分布)将产生与二项检验(使用二项分布)几乎相同的p值。但为什么我们更喜欢z检验而不是二项检验呢? 原因如下：
• 我们可以用两侧（双边）z检验。然而，除非p=0.5，二项检验总是单侧的。
• z检验允许我们计算样本占比的置信区间。我们可以很容易地估计z检验的势（power），但二项检验却不行。
• z检验的计算量较小，特别是对于较大的样本量。
什么时候可以用z检验代替二项检验呢?经验法则是pn和(1 - p)n必须都> 5

麦克尼马尔检验：McNemar's test

McNemar的检验要么是“被试对象内卡方检验”，要么是“列联表的边际同质性检验”。如果数据是成对的，则使用McNemar‘s检验，如果数据是“未成对”的，则使用卡方检验。麦克内马尔发现，有些人会从“是”转变为“否”，有些人则会随机地从“否”转变为“是”。如果治疗没有效果，从“是”到“否”的人数应该与从“否”到“是”的人数大致相等。即c/(b+c)应该是二项的(预期p = 0.5)

考虑Yates ContinuityCorrection(耶茨连续性修正)时，未修正的麦克内马尔统计量是标准化的两个计数的差值的平方；连续性修正对两者都适用，但对较大（B和C中）的是-1/2，对较小的（B和C中）是+ 1/2因此，修正后|B-C|始终为-1。

耶茨连续性修正。如果2 ×2卡方表的总N小于约40，则使用耶茨（Yates）连续校正来补偿理论(平滑)概率分布的偏差。得到的卡方值更小，得到的统计推断更保守

机器学习中的应用：Interpret the McNemar’s Test forClassifiers （麦克尼玛尔检验用于分类器)

Cochran Q Test A extension to McNemar Test Cochran Q 测试 McNemar 测试的延伸

K-S检验

K-S检验用于对连续型随机变量进行检验，卡方则针对离散型变量【分组数据】进行检验

KS-检验：比较累积分布函数

卡方检验用于将已离散化的数据例如直方图与另一组已离散化的数据或以同样方式离散化的模型的预测进行比
较。

将K-S 检验应用于未装箱（未离散化）数据，以比较两种分布的累积频率或将累积频率与累积频率的模型预测进行比较。

Wilcoxon 秩和检验（Rank Sum Test）

在统计学中，曼-惠特尼U检验（也称为曼-惠特尼-威尔科克斯（MWW），威尔科克斯秩和检验，或威尔科克斯-曼-惠特尼检验）是一种非参数检验。

该测试可用于确定两个独立的（独立、非配对）样本是否是由具有相同特征的人群中选出的。该测试可用于确定两个独立的（独立、非配对）样本是否来自同分布（更准确地，中位数是否相同）。

选择秩和检验而不是独立t检验的原因是:

你不能假设你的数据是interval的（具有绝对的大小，而非相对排序、名义或类标签）
你不能假设你的数据是正态分布的。

符号检验The Sign Test for Median

检验中位数m是否取特定值.

如果零假设为真，即m= m0 ，那么N-和N+都遵循参数n和p=1/2二项分布。

我们可以将符号检验扩展到两个/组样本的情况。

两个样本配对符号检验相当于对配对的差异（diff）进行单样本符号检验。

零假设：这两个样本来自于具有相同中位数的总体。

Wilcoxon 符号秩检验

符号秩检验(Wilcoxon signed-rank test)是一种非参数检验，可用于确定两个因果（配对样本）是否来自同分布的总体。

相比于Sign Test， Wilcoxon 符号秩检验的p值更小，检验的势（power）更大。

原因：前者仅考虑了sign（大于/小于median），后者还考虑了与median的距离大小（distance）。

符号秩检验的H0暗含了对差异对称性的假设，而符号检验则不需要。

另一方面，如果总体中存在近似对称，而且一侧的tail不是很重，那么符号秩有更大的势（power）。

适用条件：1. 非正态（non-Gaussian） 2. 对称性（symmetry）

K-W检验（Kruskal-Wallis Test）

（Mann-Whitney或Wilcoxon）秩和检验比较两组，而Kruskal-Wallis检验比较3组及以上。Kruskal-Wallis检验是一种非参数的单因素方差分析。它是基于秩（排序的，只考虑相对大小）的。

Kruskal-Wallis检验用于确定三个或更多组独立群体的中位数之间是否存在统计学上的显
著差异。
该检验是单因素方差分析的非参数版本，通常在不符合正态性假设时使用。
Kruskal-Wallis检验不假定数据的正态性，对异常值的敏感度比单因素方差分析低得
多。
K-W比“中位数检验”具有更大的势（power），对于相同样本，前者p值更小。

中位数检验是独立性卡方检验的一种特殊情况。给定k组样本，
n1, n2 …… nk观测值，计算所有n1 +n2 + ……+nk观测值的中位数。
然后构造一个2xk列联表，其中第一行包含k个样本的中位数以上
的观测值，第二行包含k个样本的中位数以下或等于中位数的观
测值。然后可以对该表应用独立性卡方检验。更具体地说：
H0 ：所有k总体有相同的中位数
Ha ：至少2个总体的中位数不同
检测统计量:

\[\frac{N^{2}}{a b} \sum_{i=1}^{k} \frac{\left(O_{1 i}-n_{i} a / N\right)^{2}}{n_{i}} \]

其中：
a 观测值大于所有样本的中位数的样本数
b 小于或等于所有样本中位数的样本数
N 总样本数
$O_1i$ 第i组中观测值大于样本中位数的样本数
显著性水平：α
临界区域： $T>\chi_{1-\alpha ; k-1}^{2}$
结论：$ ?^2$是卡方分布的百分点函数，k-1是自由度。如果检验统计量的值大于卡方值，则拒绝独立假设。
注意卡方临界值是一个大样本近似值。Conover建议从分析中放弃所有只有一个观测值的那组样本，以便近似是有效的。

生存分析

生存分析主要用于哪些地方？

卡普兰—梅尔估计量：一种非参数生存估计量

Kaplan-Meier曲线描述了生存函数。
•截尾是一种生存分析特有的缺失数据问题。
•Censoring（删失）：这经常会在临床资料中看到，生存分析中也有其对应的参数，一般指不是由死亡引起的。数据丢失，可能是失访，可能是非正常原因退出，可能是时间终止而事件未发等等，一般在展示时以‘+’号显示

log rank test, also known as Mantel-Haenszel test

对数秩检验，也称为Mantel-Haenszel检验

Kaplan–Meier estimate (nonparam) vs. Exponential estimate (param)

卡普兰—梅尔估计量（非参数）VS指数生存估计（参数）

KE(卡普兰一梅尔估计量)是一种较好生存结果的可视化方法，但估计值的置信区间略宽于其他模型，这意味该模型存在着更大的不确定性。相比之下，指数生存估计的不确定性会略低于比KE:如果使用得当，指数生存估计只需要更小的样本量便可以实现相同的估计不确定性（约减少30%）。然而，指数存活率估计的前提时故障率不变，也就是说鉴于事件尚未发生，事件发生的概率在一段时间内保持不变。但是在许多应用环境中，这一假设并不成立，因为故障率会随着时间而变化。例如，手术后感染的机会通常会随着时间的推移而减少。

COX回归

COX回归（比例风险回归模型）-二分类结果的时间方面多变量比较。

Cox回归是最强大的生存或事件时间分析类型，该回归是双变量Kaplan-Meier曲线的多变量扩展，允许通过各种人口统计学、预后、临床或混杂变量控制主要预测因子和二分分类结果变量之间的关联。Cox回归有着与95%置信区间相同概率的风险比。

Cox回归（或Cox比例风险回归）是一种统计方法，用于分析严重风险因素对生存率的影响，或者通常在特定事件发生的时间上，终点（死亡或任何其他感兴趣的事件，例如疾病复发)的概率称为危险。其模型如下：

\[\mathrm{H}(t)=\mathrm{H}_{0}(t) \times \exp \left(b_{1} X_{1}+b_{2} X_{2}+b_{3} X_{3}+\cdots+b_{k} X_{k}\right) \]

其中$X_i… X_k $是预测变量的集合， H(t）是时间 t 的基线危险，用所有预测变量的值表示一个人的危险。通过将上述方程的两边除以$H_o(t)$并取对数，我们得到

\[\ln \left(\frac{\mathrm{H}(t)}{\mathrm{H}_{0}(t)}\right)=b_{1} X_{1}+b_{2} X_{2}+b_{3} X_{3}+\cdots+b_{k} X_{k} \]

我们称$H(t)/H_0(t)$为危险比。系数b通过协回归估计，可以用与多元logistic回归相似的方式解释.

风险比率（Hazard Ratio)

Hazard Ratio是一个解释变量的两个水平所描述的条件所对应的 Hazard Rate 的比值。风险比率反映了两个风险率之间的差别。这种差别是由各种外生变量引起的，比如干预类型（treatment ）的不同（比如用药或者不用药）、性别的影响（男性或者女性）等等。例如，在药物研究中，接受治疗的人群在单位时间内的死亡率可能是对照组人群的两倍，这里 HazardRatio 为 2 ，表明该治疗的死亡风险更高。