2021-7-24-数模比赛-526互联

还不是被我妹妹给气的.jpg

要掌握的库

数据挖掘

request

BeautifulSoup

数据处理

Pandas

决策树，梯度提升问题

参考2020c109论文

决策树构建用包

xgboost 梯度提升

sklearn 回归聚类随机森林决策树等

spss因子分析降维

https://www.youtube.com/watch?v=TkKCA2daJdw

uTools_1629182753821

uTools_1629182731914

uTools_1629182723199

uTools_1629182689390

uTools_1629182651453

看旋转成分图估计每个成分含义

KMO大于0.5，相关性小于0.1或0.05

spss归一化

http://www.datasoldier.net/archives/505

分析方法

上图个人觉得仅供参考

主成分分析

https://blog.csdn.net/LuYi_WeiLin/article/details/90452437

主成分分析不需要考虑共线性问题，他就是来解决这个问题的

logistic回归

https://blog.csdn.net/LuYi_WeiLin/article/details/90322121

但是在现实情况中，发生率P为因变量，它与自变量之间通常不存在线性关系（一般是两边不敏感，中间敏感，比如收入与轿车拥有率），而且上面表达式不能保证在自变量的各种组合下，因变量的取值仍限制在0_{1内，所以数学家们为了解决遇到的这两个问题，将想方设法想找到一种变量变换，能让上式的发生率限制在0}1内，而且两边不敏感，中间敏感，到最后找到了一种变换，将上式的因变量进行如下转换，就能解决我们遇到的问题

sklearn pipeline

其实就是把方法丢进管道里，然后依次进行

如：

from sklearn.ensemble import GradientBoostingRegressor
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.decomposition import PCA

regressor = GradientBoostingRegressor(n_estimators=300, random_state=0)
#先做去均值和方差归一化，再做降维，再做梯度提升
pipe = Pipeline([('scaler', StandardScaler()), ('reduce_dim', PCA()),
                 ('regressor', regressor)])
pipe.fit(X_train, y_train)
ypipe = pipe.predict(X_test)

Grid Search：一种调参手段；穷举搜索

GridSearchCV

roc_auc是分类网络用的评估指标，用错指标了