数据处理
列数有这些:
看看不同特征与结果的相关性
1.性别(Sex):0.74的女性活下来了
2.舱位(PClass):一等舱0.62,二等舱0.47,三等舱0.24
3.一起登船的家人数量(SibSp):0人0.35,1人0.53,2人0.46,3人0.25,4人0.16,5人0
4.老人孩子数量(Parch):0人0.34,1人0.55,2人0.5,3人0.6,4人0,5人0.2
想法
明显,这几个变量都有关系,但并不是正相关,不适合线性回归模型
基本思路
1.用Sex、Pclass、SibSp做个模型,我觉得这是个概率模型
然后用随机森林试了一下,正确率0.77,逻辑回归正确率0.772
2.仔细想想,逻辑回归问题应该把类别变量做One-Hot映射,而非直接作为数值型表示,否则会被模型理解为连续性数值变量而非类别变量
参考文献:第三次课_线性回归&逻辑回归 - 知乎 (zhihu.com)