?p=29841

最近我们被客户要求撰写关于非参数估计的研究报告。在应用的设置中，我们经常遇到分类数据类型和连续数据类型的组合

熟悉传统非参数核平滑方法的人会明白，这些方法假定基础数据本质上是连续的，但事实往往并非如此。一种同时处理连续数据和分类数据存在的方法称为“频率”方法，其中数据被分解为对应于分类变量假设值的子集（“单元格”），然后才将密度或位置应用于每个单元格中剩余的连续数据。

非参数频率方法被广泛认为是不令人满意的，因为它们通常会导致使用样品分裂引起的大量效率损失。

在本文中，我们通过许多经验应用来说明R的使用。选择每个应用程序是为了在应用的环境中突出显示特定的计量经济学方法。

非参数无条件PDF和 CDF估计

间歇泉是位于黄石国家公园的旅游景点。这个包含 n = 272 次观测的著名数据集由两个变量组成，以分钟为单位的喷发持续时间（以分钟为单位）和等待下一次喷发的时间（以分钟为单位）。公园服务使用此数据集来模拟预期持续时间，具体取决于自上次喷发以来经过的时间量。然而，对联合分布进行建模本身就很有意义，并且核估计器很容易揭示联合 PDF 和 CDF 的基本双峰性质。在本例中，我们加载旧的间歇泉数据并计算密度和分布函数。结果如图所示。请注意，在此示例中，我们一步进行带宽选择和估计

R> Ful <- npst(~ eruptions + waiting, data = fal)
R> summary(f.fful)

R> summary(Fhful)

以下代码将生成图。

R> plot(f.fthful

如果用参数模型（例如二元正态（对称、单峰和单调递减）来模拟这种密度，当然无法揭示核估计容易揭示的底层结构。

图：Old Faithful 数据的非参数多变量 PDF 和 CDF 估计值。

点击标题查阅往期内容

R语言非参数方法：使用核回归平滑估计和K-NN(K近邻算法)分类预测心脏病数据

左右滑动查看更多

非参数条件PDF和CDF估计

我们考虑GDP增长，涵盖1951-1998年期间的21个地区。总共有n = 1008个观测值，以及两个变量，GDP和年份。首先，我们计算带宽。请注意，这可能需要一两分钟，具体取决于计算机的速度。我们覆盖搜索方法的默认容差，因为目标函数表现良好（当然通常不要这样做），然后我们计算。请注意，在本例中，我们一步进行带宽选择和估计。

R> fat <- npns(gdp ~ year,
+ tol = 0.1,
+ ftol = 0.1,

R> Fat <- npst(gdp ~ year,
+ tol = 0.1,
+ ftol = 0.1,

图绘制了 GDP 面板生成的条件 PDF 和 CDF。以下代码将生成图。

R> plot

图显示，收入分配已从1950年代初的单峰分配演变为1990年代的明显双峰分配。此结果对带宽选择具有鲁棒性，无论是使用简单的经验法则还是数据驱动的方法（如可能叉验证）都可以观察到。核方法很容易揭示这种演变，如果使用收入分配的参数模型（例如，单峰对数正态分布通常用于模拟收入分配），则很容易被忽略。

非参数分位数回归

我们再次考虑GDP增长数据。首先，我们计算交叉验证带宽的可能性（默认）。我们覆盖了搜索方法的默认容差，因为目标函数表现良好（当然，通常不要这样做）。然后我们使用Li和Racine（2008）的方法计算结果的条件分位数估计。例如，我们计算第 25、50 和 75 条件分位数。请注意，这可能需要一两分钟，具体取决于计算机的速度。请注意，对于此示例，我们首先以避免不必要的带宽对象重新计算。

R> bw <- npbw(formula = gdp ~ year,
+ tol = 0.1,
+ ftol = 0.1,
R> modq0.25 <- nptau = 0.25)
R> mo.q0.50 <- nbw, tau = 0.50)
R> mod.q0.75 <- npq, tau = 0.75)

图绘制了生成的分位数估计值。以下代码将生成图。

R> plot
R> lines(It$year, mode.q0.25quantile )

此应用程序的一个很好的功能是解释变量是有序的，并且每年存在多个观测值。将绘图函数与有序数据一起使用会生成一个箱线图，该箱线图很容易显示非平滑的第 25、50 和 75 个分位数。然后可以直接将这些非平滑分位数估计值与通过直接估计平滑CDF获得的估计值进行比较，如图所示。

GDP 面板上的非参数分位数回归。

参考文献

Aitchison J， Aitken CGG （1976）.“核方法的多元二元判别。”生物计量学，63（3），413-420。

Baiocchi G (2006). “Economic Applications of Nonparametric Methods.” Ph.d. thesis, University of York

点击文末 “阅读原文”

获取全文完整代码数据资料。

本文选自《R语言非参数PDF和CDF估计、非参数分位数回归分析间歇泉、GDP增长数据》。

点击标题查阅往期内容

matlab使用分位数随机森林（QRF）回归树检测异常值
 逻辑回归、随机森林、SVM支持向量机预测心脏病风险数据和模型诊断可视化|数据分享
 贝叶斯分位数回归、lasso和自适应lasso贝叶斯分位数回归分析免疫球蛋白、前列腺癌数据
 用加性多元线性回归、随机森林、弹性网络模型预测鲍鱼年龄和可视化
 PYTHON用户流失数据挖掘：建立逻辑回归、XGBOOST、随机森林、决策树、支持向量机、朴素贝叶斯和KMEANS聚类用户画像
 PYTHON集成机器学习：用ADABOOST、决策树、逻辑回归集成模型分类和回归和网格搜索超参数优化
 R语言集成模型：提升树boosting、随机森林、约束最小二乘法加权平均模型融合分析时间序列数据
 Python对商店数据进行lstm和xgboost销售量时间序列建模预测分析
 R语言用主成分PCA、逻辑回归、决策树、随机森林分析心脏病数据并高维可视化
 R语言基于树的方法：决策树，随机森林，Bagging，增强树
 R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测
 spss modeler用决策树神经网络预测ST的股票
 R语言中使用线性模型、回归决策树自动组合特征因子水平
 R语言中自编基尼系数的CART回归决策树的实现
 R语言用rle，svm和rpart决策树进行时间序列预测
 python在Scikit-learn中用决策树和随机森林预测NBA获胜者
 python中使用scikit-learn和pandas决策树进行iris鸢尾花数据分类建模和交叉验证
 R语言里的非线性模型：多项式回归、局部样条、平滑样条、广义相加模型GAM分析
 R语言用标准最小二乘OLS，广义相加模型GAM ，样条函数进行逻辑回归LOGISTIC分类
 R语言ISLR工资数据进行多项式回归和样条回归分析
 R语言中的多项式回归、局部回归、核平滑和平滑样条回归模型
 R语言用泊松Poisson回归、GAM样条曲线模型预测骑自行车者的数量
 R语言分位数回归、GAM样条曲线、指数平滑和SARIMA对电力负荷时间序列预测 R语言样条曲线、决策树、Adaboost、梯度提升(GBM)算法进行回归、分类和动态可视化
 如何用R语言在机器学习中建立集成模型？
R语言ARMA-EGARCH模型、集成预测算法对SPX实际波动率进行预测在python 深度学习Keras中计算神经网络集成模型 R语言ARIMA集成模型预测时间序列分析 R语言基于Bagging分类的逻辑回归(Logistic Regression)、决策树、森林分析心脏病患者
 R语言基于树的方法：决策树，随机森林，Bagging，增强树
 R语言基于Bootstrap的线性回归预测置信区间估计方法
 R语言使用bootstrap和增量法计算广义线性模型（GLM）预测置信区间
 R语言样条曲线、决策树、Adaboost、梯度提升(GBM)算法进行回归、分类和动态可视化
 Python对商店数据进行lstm和xgboost销售量时间序列建模预测分析
 R语言随机森林RandomForest、逻辑回归Logisitc预测心脏病数据和可视化分析
 R语言用主成分PCA、逻辑回归、决策树、随机森林分析心脏病数据并高维可视化
 Matlab建立SVM，KNN和朴素贝叶斯模型分类绘制ROC曲线
 matlab使用分位数随机森林（QRF）回归树检测异常值

526互联

R语言非参数PDF和CDF估计、非参数分位数回归分析间歇泉、GDP增长数据|附代码数据

全文链接：http://tecdat.cn/?p=29841

非参数无条件PDF和 CDF估计

非参数条件PDF和CDF估计

非参数分位数回归

参考文献