2023/08/18 AI for science:baseline.

发布时间 2023-08-18 20:57:33作者: vulgarian

AI for science

baseline

数据集下载及环境构建

  1. 由于数据集庞大以及算力问题,选择在赛事云端环境PAI-DSW部署;

  2. 数据集每列表示一个样本,有485512个甲基化数据特征;

  3. 数据读取

    • 由于48w+特征太多,在预处理时需要分块读取使用以下命令分块读取,然后使用pickle压缩后保存。

      
      pandas.read_csv(path, chunksize)
      
  4. 与平时的不同:

    • 平时比较多自己处理数据,然后变成mat或者txt数据,少有处理大型的csv文件的经验。

数据预处理

  1. 缺失值处理

    • 一般自己常用的做法是删除缺失样本,从而达到所有样本没有缺失值(因为平时经常做的数据比较依赖真实性,不能进行插补)。
    • 常用的解决方法:回归(基于完整的数据集,建立回归方程,或利用机器学习中的回归算法。对于包含空值的对象,将已知属性值代入方程来估计未知属性值,以此估计值来进行填充。当变量不是线性相关时会导致有偏差的估计。);多重插补;不处理缺失值。

特征工程

  1. 新的值

    • 常用的降维方法(PCA,LDA)
  2. 子集

    • 过滤
      • 选择一种评价准则(比如t检验,互信息法等)选择一个阈值,保留大于阈值的特征。
    • 封装
      • 利用机器学习算法搜索最优子集,比如RFE,lasso等。
    • 嵌入

模型训练

  1. 本次任务是回归问题;
  2. 选择十折交叉验证可以更客观的评价自己的模型优劣;

总结

主要和平时实验有区别的地方就在于对大规模的csv文件的读取和操作。