Lecture 2: Data Sampling and Probability

发布时间 2023-10-05 14:38:41作者: 乐池

详细地址:data100Lecture2

1. 引

1.1 图表的使用



两张图片基于相同数据生成,但是表达的意思、想突出的重点完全不一样

1.2 数据科学生命周期


上图是数据科学生命周期,这节课就将如何收集数据

2. 人口普查和调查

  • 可能会有许多误差,有的人无家可归等等,需要理解数据

3. 取样:定义

  1. A sample is a subset of the population.样本通常用于推断群体。
  2. 常见的两种误差:
    • 偶然误差:随机样本可能 在任何方向上都可能与预期不同。
    • 偏差:一个方向上的系统误差。
      无论使用什么方法取样,所推断的结果与实际总有偏差
  • sampling frame:抽样框架,即从中抽样的名单,最终可能出现在样本中的人的集合
  • sample:实际抽取的样本

4. 偏差:案例研究

  1. 选择偏差
    • 系统地排除(或偏袒)特定群体。
    • 如何避免?检查抽样框架和抽样方法。
  2. 回应偏差
    • 人们的回答并不总是真实的。
    • 如何避免?检查问题的性质和调查方法。
  3. 非响应偏差
    • 人们并不总是做出回应。
    • 如何避免?调查要简短,要坚持不懈。
    • 不回复的人和回复的人不一样!