526互联

2023/08/18 AI for science:baseline.

发布时间 2023-08-18 20:57:33作者: vulgarian

AI for science

AI for science
- baseline

baseline

数据集下载及环境构建

由于数据集庞大以及算力问题，选择在赛事云端环境PAI-DSW部署；
数据集每列表示一个样本，有485512个甲基化数据特征；
数据读取
- 由于48w+特征太多，在预处理时需要分块读取使用以下命令分块读取，然后使用pickle压缩后保存。
```
pandas.read_csv(path, chunksize)
```
与平时的不同：
- 平时比较多自己处理数据，然后变成mat或者txt数据，少有处理大型的csv文件的经验。

数据预处理

缺失值处理
- 一般自己常用的做法是删除缺失样本，从而达到所有样本没有缺失值（因为平时经常做的数据比较依赖真实性，不能进行插补）。
- 常用的解决方法：回归（基于完整的数据集，建立回归方程，或利用机器学习中的回归算法。对于包含空值的对象，将已知属性值代入方程来估计未知属性值，以此估计值来进行填充。当变量不是线性相关时会导致有偏差的估计。）；多重插补；不处理缺失值。

特征工程

新的值
- 常用的降维方法（PCA，LDA）
子集
- 过滤
  - 选择一种评价准则（比如t检验，互信息法等）选择一个阈值，保留大于阈值的特征。
- 封装
  - 利用机器学习算法搜索最优子集，比如RFE，lasso等。
- 嵌入

模型训练

本次任务是回归问题；
选择十折交叉验证可以更客观的评价自己的模型优劣；

总结

主要和平时实验有区别的地方就在于对大规模的csv文件的读取和操作。

baseline science 2023 for

print day for 08

libevent 2023 08 29

交易法2023 08 22

solution light 2023 08

周刊2023 net 08

solution summer 2023 08