读算法霸权笔记09_信用数据的陷阱

发布时间 2024-01-02 07:03:15作者: 躺柒

1. 信用评级模型

1.1. 评估个人贷款违约风险的模型为FICO

1.1.1. 唯一评分参数就是贷款者的资产,主要依据是贷款者的债务负担和账单支付记录

1.1.2. 这种信用评分模型相对透明

1.1.3. 信用评分行业受政府管制

1.1.4. 信用评分系统的使用得到了广泛普及

1.2. 脸书就发明了一款建基于人们在社交网络上的行为数据的信用评级软件

1.2.1. A先生脸书上的同学有投资银行家,专业领域的博士,还有软件设计师

1.2.1.1. 更信任自己圈子里的人,因为人性就是如此

1.2.1.2. “物以类聚,人以群分”的理论表明他是可以信任的

1.2.2. B清洁工很可能有很多失业的朋友,甚至还有几个正在坐牢的朋友

1.2.2.1. 同样的理论对B不利

2. 客户锁定服务

2.1. 一项技术可以用于快速处理来电者的所有可获得数据,并把来电者按一定的指标进行等级排序

2.2. 排在前面的人被认为是更有价值的潜在客户,系统会迅速地把他们筛选出来,由人工客服接听电话

2.3. 排在后面的人要么需要等待很长的时间,要么被分配到机器人客服

3. 信用报告

3.1. 信用报告也经常作为替代变量出现

3.2. 信用好已经成为其他美德的一个非常简单的替代品

3.2.1. 信用好不仅仅被视为负责任和明智的替代变量,也被视为财富的替代变量

3.2.1.1. 财富和种族高度相关

3.3. 信用差则代表着许多与支付账单无关的罪恶和缺陷

3.4. 公司在查看雇员的信用记录之前必须征得对方的同意,但这通常只是走个流程

3.5. 那些拒绝交出信用记录的人根本不会被考虑录用

3.6. 不难证明由雇主查看信用记录导致的贫困陷阱会阻碍社会公平和种族平等的实现

3.6.1. 美国已经有10个州颁布法律判定利用信用评分指导招聘属违法行为

3.7. 利用信用评分指导招聘和升职的行为惯例导致了贫困的恶性循环

3.7.1. 你因为信用记录找不到工作,那么你的信用记录很可能会变得更糟,你找到工作的机会就会变得更小

3.8. 有储蓄的人当然可以在经济萧条时期维持信用记录的完好

3.9. 月光族则更易遭受冲击

3.10. 与电子评分经济环境下的非正式金融机构不同的是,信用卡巨头公司必须要向客户解释原因

3.10.1. 持卡人中有很多人会经常去逛“信誉不良的穷人开设的商店”,因为他们没有很多钱

3.10.2. 算法注意到了这件事,导致他们的信用评分降低,抬高他们的贷款成本,而这让他们因此变得更加贫穷

3.11. 标点符号和拼写错误也表明低教育水平,而低教育水平和阶级、种族高度相关

3.11.1. 当穷人和移民有资格申请贷款时,他们不合标准的语言水平会抬高他们的贷款利率

3.12. 金融行业的新来者会选择更自由、更不受管束的路径并不奇怪

3.12.1. 创新仰赖自由实验

3.12.2. “数据越多越好”是信息时代的指导原则

3.12.3. 银行业正为了促进业务增长疯狂搜刮个人数据

3.12.4. 虑到社会公平,一部分数据理应被排除在外

4. 电子评分系统

4.1. 电子评分是一种数学杀伤性武器

4.2. 电子评分系统是信用评分系统的化身

4.3. 电子评分更为武断任意,不负责任,不受管束,而且往往不公平

4.4. 建立在数百万个替代变量上的电子评分系统在进行暗箱操作,而封装着个人信息和相关数据的信用报告则受到法律的保护

4.5. 信用卡办理广告将是那种锁定违约风险更高的人群的类型

4.5.1. 意味着向本已艰难谋生的人推荐可用透支额度更少、贷款利息更高的信用卡

4.6. 掠夺式广告都是由这种电子评分系统生产的

4.6.1. 包括发薪日贷款和营利性大学的广告

4.7. 由于法律禁止企业使用信用评分进行市场营销,因此企业转而采用了这种不严谨的替代品

4.8. 我们的信用记录包含非常私人的信息,我们有权把控谁能看到这些数据

4.9. 正义和透明这样的概念几乎不可能被纳入企业的模型算法之中

4.10. 电子评分系统通过无数替代变量分析个人,在几毫秒内执行成千上万次“像你这样的那类人”的计算

4.11. 如果结果显示“那类人”中有足够多的人是欠债不还者,或者更糟,是罪犯,那么最开始被评估的这个人就会得到相应的对待

4.12. 过去的不公正编码带进了新的模型中

4.12.1. 某个区域的居民的行为史可以决定,或者至少在某种程度上决定,住在那里的人应该得到什么样的贷款

4.13. 电子评分系统建模者设法回答的是这个问题:“像你这样的那类人过去的行为表现如何?

4.13.1. 在遍布替代变量的统计界,这种模型经常奏效

4.13.2. 物以类聚,人以群分

4.13.2.1. 有钱人买游轮和宝马,而穷人往往确实需要发薪日贷款

4.13.3. 统计模型在大多数情况下都奏效了,带来了效率提高,利润激增,因此投资者会加倍投资这些科学系统,让这些科学系统把成千上万的人归入正确的“池”中

4.13.3.1. 大数据的胜利

4.13.4. 并没有可用的反馈回路用以修正系统

4.13.4.1. 不透明且受害者无法申诉,没有任何公平可言

4.13.4.2. 被无监管的电子评分系统评选出的失败者无权抱怨,更不用说纠正系统的错误了

4.13.4.3. 在数学杀伤性武器领域,他们的遭遇是附带损害

4.13.4.3.1. 生活就是不公平的

4.14. 在理想的情况下,应该问的问题是:“你过去的行为表现如何?

4.15. 两个问题的区别是巨大的

4.16. 随着电子评分甚嚣尘上,我们被一些秘密算法归类分组,其中有些算法仰赖的还是错误百出的个人档案

4.16.1. 我们不是被当作个体,而是被当作某个群体的一员,被迫戴上了某顶帽子

4.16.2. 电子评分污染了金融行业的大环境,贫民的机会越来越少

4.16.3. 比起众多胡作非为的数学杀伤性武器,过去那种怀有偏见的银行家看起来也没有那么坏了

4.16.3.1. 如果我们最后一次回顾一下20世纪50年代的银行家,我们会发现他的大脑充斥着各种人类的劣根性,包括欲望、偏见和对外来者的不信任

5. 差错

5.1. 富人往往能仰赖更具个性化的软件做出重大决定

5.2. 富有的旅客往往能够花钱购买“可靠乘客”的身份,因此得以顺利通过安检

5.2.1. 他们花钱购买的就是一个可以避免数学杀伤性武器伤害的防护盾

5.3. 普通阶层的人而言,尤其是较低阶层的人,他们的工作中的大部分操作都是纯自动化的

5.4. 数据经济不规范的一面破坏性更强

5.4.1. 消费者可以并且应该每年要求查看自己的信用报告,修正可能发生的昂贵错误

5.4.2. 差错带来的后果足以严重到增加他们的借贷成本

5.4.3. 系统所做出的判断仰赖的是我们漏洞百出的数据档案

5.5. 建立并出售个人档案为RealPage等同类公司创造了收入

5.5.1. 海伦·斯托克斯这样的人并不是它们的客户,而是它们的产品,应付这些人的投诉会浪费精力和财力

5.5.2. 斯托克斯的逮捕记录始终没有被删除,直到她提起上诉

5.5.3. 即使RealPage公司解决了这个问题,谁知道还有多少其他的数据代理商会继续贩卖包含同样错误信息的档案呢

5.6. 如果历史档案有错误(这是常有的事),即便再精良的算法也不可能给出正确的决策建议

5.6.1. 无用输入,无用输出

5.6.2. 错误肯定大量存在于我们的档案之中,而充斥着混淆和误导的算法正日益掌控着我们的生活

5.6.3. 消费者常常只是在无意之中了解到自己的档案有差错

5.7. 有些数据代理商会给消费者提供数据查看权限

5.7.1. 这些数据报告是被组织过的

5.7.2. 她不会看到自己身处一个被命名为“乡下人,勉强维持收支平衡”或者“老来无退休收入”的群体分类中

5.8. 数据经济环境下,大部分人要么是局外人要么是老古董

5.8.1. 各种系统的开发都以尽可能使其自动化运转为目标

5.8.1.1. 这是一种高效率的方式,也是利润的来源

5.8.2. 和所有其他的统计程序一样,错误是不可避免的

5.8.3. 减少错误的最快捷方式是微调机器运转算法

5.8.4. 人类只会把事情搞砸

5.8.5. 计算机仍然会犯各种各样的错误

5.9. 自动化数据收集程序带来的错误正在污染预测模型,助推数学杀伤性武器的诞生

5.10. 错误为机器创造了进一步学习的机会,前提条件是系统能接收到错误反馈