读算法霸权笔记10_分类与群体

发布时间 2024-01-04 06:43:05作者: 躺柒

1. 地域经济歧视(redlining)

1.1. 问题

1.1.1. 贫穷和不公与美国黑人的高死亡率是否有关

1.1.2. 缺少好的学校、现代化的卫生设施、安全的工作场所和医疗保险是否会导致黑人在更年轻的年龄死亡

1.2. 黑人只是一个庞大的同类群体,而没有把黑人按照不同的地理、社会或经济群体进行分类

1.3. 一位在波士顿或纽约有稳定生活的黑人教师和一个在密西西比三角洲每天赤脚工作12小时的黑人佃农没什么区别

2. 好事达

2.1. 好事达通过分析消费者的人口数据预测消费者购买低价商品的可能性

2.2. 如果可能性较低,那么向他们收取更高的费用就是合理的

2.2.1. 这就是好事达在做的事

2.3. 好事达的模型研究了大量的替代变量以计算可以向客户收取多少费用,而保险行业里的其他公司也是这么做的

3. 保险

3.1. 保险是由精算科学发展而来的,这门学科的起源可以追溯到17世纪

3.2. 保险这一新行业第一次给了人们一个机会拿他们所在群体的集体风险为赌注,换取不幸发生时对自己的保护

3.2.1. 随着可获得的个人数据越来越多,包括我们的基因组,我们的睡眠、锻炼和饮食的模式,以及我们开车的熟练程度等,保险公司逐渐获得了精确计算个人风险的能力,并将自己从对更大的群体的集体风险的赌注中解放出来

3.3. 数学的进步为预测提供了必要的工具

3.3.1. 数学家们并没有假装自己可以预见每一个个体的命运

3.3.2. 个体命运是不可知的

3.3.3. 可以预测在一大群人中发生事故、火灾和死亡事件的频率

3.4. 保险公司已经开始利用数据将我们分成更小的群体,以不同的价格给我们提供不同的产品和服务

3.4.1. 定制服务

3.4.2. 这并不是真正针对个体的服务

3.4.3. 模型在我们看不到的地方仍然把我们归类为各种各样的群体,以各种行为模式为指标

3.4.4. 不管最终的分析正确与否,这种不透明性都会导致欺诈

3.5. 监控将改变保险的本质

3.5.1. 由于保险公司对我们的了解越来越多,它们现在已经能够查明哪些人是风险最高的客户,然后,它们要么将这些人的保险费增加到最高,要么在合法的限度内拒绝支付他们的保险赔偿金

3.5.2. 在一个每个人都被视为可锁定目标的世界里,我们不再是支付平均费用,而是承担了预期的成本

3.5.3. 保险公司非但没有帮助我们平稳渡过生活中的意外时期,反而要求人们提前为还未发生的意外买单

3.5.4. 这破坏了保险的本意,对那些只能勉强负担保险的人来说,其遭到的打击尤为严重

3.6. 保护隐私的成本的确越来越高了

3.6.1. 从客户信息中获取最多情报的保险公司成了这个行业中利润率最高的佼佼者

3.6.2. 保险公司能更准确地预测群体的风险性(尽管对个体的推断常常出错)

3.6.3. 从数据中获利越多,保险公司就会越发推崇数据

3.6.4. 在数学杀伤性武器泛滥的世界里,隐私将逐渐变为一种只有富人才负担得起的奢侈品

4. 汽车保险

4.1. 模型关注的是替代变量

4.1.1. 酒后驾驶记录更有意义

4.1.2. 保险公司长期以来一直都偏好已经通过驾照考试的年轻司机,因为它们认为这是靠谱驾驶的替代变量

4.2. 收取费用请参考我的开车技术,而不是参考你想象中的我

4.2.1. 宗旨是保险公司应该根据司机的驾驶记录,即他们的超速罚单数量,以及他们是否出过交通事故等判断他们的驾驶风险,而不是根据他们的消费模式、他们的朋友或邻居来判断

4.3. 不公平的报价是基于信用评分做出的

4.3.1. 在汽车保险公司的眼中,你管理金钱的水平要比你的开车水平更重要

4.4. 监控数据也可以被用于计算每个司机的驾驶风险

4.5. 如果一个保险公司有一个系统,它可以每年从一个有着清白记录的司机身上额外获取1552美元的收益,那为什么还要改变它呢

4.5.1. 那些尚能支付离谱保险费的可怜司机的每一分钱都被压榨了

4.5.2. 对这个模型进行的微调也是为了进一步从这个群体中赚取尽可能多的钱

4.5.3. 他们当中的一些人在汽车贷款、信用卡还款或租金缴纳等方面不可避免地违约了

4.5.4. 他们的信用评分因此进一步降低,这毫无疑问将使他们被划分至一个更绝望的细分群体中

4.6. 站在汽车保险公司的角度,这是一个双赢的结果

4.6.1. 成功让一个信用差的好司机来投保是一项低风险高回报的投资

4.6.2. 保险公司还可以利用这部分收入解决由公司模型中的低效环节引起的问题

4.6.2.1. 包括为那些信用好的坏司机支付酒驾撞车的保险赔偿金

4.7. 如果系统在评估风险时将地理位置因素纳入考量,那么那些贫穷的司机就被优惠的保险项目排除在外了

4.7.1. 因为他们更有可能在保险公司认为危险的地区开车,而且其中的许多人都是通勤时间长、上班时间不规律的上班族,这又进一步增加了他们的驾驶风险

4.7.1.1. 这个判断是基于司机的行为做出的

5. 分类

5.1. 吸收了大量的不同类型的行为数据的机器学习系统在不久的未来将会把我们归类为数百个具有不同特质的群体,而不再是仅仅将我们归入某一个群体

5.1.1. 某些群体会被类似的广告吸引进而消费

5.1.2. 某些群体可能有相似的政治倾向或者入狱频率更高

5.1.3. 某些群体可能爱吃快餐

5.1.4. 分类出不同的消费群体

5.1.5. 分类将被用来锁定不同的广告接收群体

5.2. 相似的行为模式进行归类

5.2.1. 这又是一个“物以类聚,人以群分”的例子,同样的不公正依然存在

5.2.2. 有类似行为模式的人具有同样程度的风险

5.2.3. 群体分类的产生不是基于年龄、性别、资产净值或者地理位置等传统的参数,而是基于我们的行为模式,并且分类几乎完全是由机器程序推进的

5.2.3.1. 通过考察某个数据点每天晚上停留的地方对该数据的家庭地址做出推断并关联其个人信息,并不是难事,但是感应网络感兴趣的不是个体情况,而是群体行为模式

6. 人工智能系统

6.1. 海量的行为数据将在未来被直接用于“供养”人工智能系统

6.2. 这些系统是我们人眼看不见的

6.3. 我们几乎无从知道我们属于或者为什么属于某个群体

6.4. 绝大多数的变量将永远不为人知晓

6.5. 由于系统不停地对人类进行分类,很多群体每小时、每分钟都在发生变化

6.5.1. 同一个人,早八点和晚八点的表现也是不同的

6.6. 这些未来的数学杀伤性武器将会成为隐藏在人类社会幕后的控制者

6.6.1. 它们将以它们的方式对待我们,而我们却对此毫不知情

7. 健康之名义

7.1. Fitbits计步器

7.2. 苹果智能手表

7.3. 感应设备

7.4. 实时收集关于我们身体状况的数据

7.5. 对隐私的侵犯不容忽视,也不会因为我们的希望而消失

7.6. 很多被收集的可以作为替代变量的数据,不论是每天的步数还是睡眠模式,都不受法律的保护

7.6.1. 理论上来讲是完全合法的,并且具有重大意义

7.6.2. 基于信用评级以及性格测试,公司会按照一定的标准拒绝一部分求职者

7.6.3. 健康评估模型给出的健康指数则代表的是筛选机制自然而然且令人恐惧的下一发展阶段

7.7. 身体质量指数(BMI)

7.7.1. 一般人的水平可以用于衡量整个人口但往往无法用于评估个人

7.7.2. 女性更有可能超重(毕竟“一般人”并不真的存在)

7.7.3. 因为脂肪比肌肉轻很多,健美的运动员通常会有极高的身体质量指数

7.8. 健康计划

7.8.1. 是公开透明的,并且除了身体质量指数得分外,计划的其他部分并不是基于数学算法建立的

7.8.2. 侵犯了员工的人身自由,也给了公司雇主惩罚其不待见的员工,同时处以他们罚款的借口

7.8.2.1. 此类模型反而为企业提供了一种新的克扣员工薪水的手段

7.8.3. 健康计划节省的最多的钱就是雇主为员工缴纳的保险赔偿金

7.8.4. 仅仅是流传甚广的、披着花哨的健康言论外衣的克扣薪资的工具

7.8.5. 所有这些做法都是借健康之名义推行的

7.8.6. 如果公司最终编写出了自己的健康和生产力评估模型,那么这将必然演变成一个完全成熟的数学杀伤性武器