【Titanic】基本尝试

发布时间 2023-10-10 17:12:49作者: byxiaobai

数据处理

列数有这些:

看看不同特征与结果的相关性

1.性别(Sex):0.74的女性活下来了

2.舱位(PClass):一等舱0.62,二等舱0.47,三等舱0.24

3.一起登船的家人数量(SibSp):0人0.35,1人0.53,2人0.46,3人0.25,4人0.16,5人0

4.老人孩子数量(Parch):0人0.34,1人0.55,2人0.5,3人0.6,4人0,5人0.2

想法

明显,这几个变量都有关系,但并不是正相关,不适合线性回归模型

基本思路

1.用Sex、Pclass、SibSp做个模型,我觉得这是个概率模型

然后用随机森林试了一下,正确率0.77,逻辑回归正确率0.772

2.仔细想想,逻辑回归问题应该把类别变量做One-Hot映射,而非直接作为数值型表示,否则会被模型理解为连续性数值变量而非类别变量

参考文献:第三次课_线性回归&逻辑回归 - 知乎 (zhihu.com)