数据统计分析 — 正态分布

发布时间 2023-10-30 15:32:00作者: VipSoft

连续型随机变量的概率分布
德国的高斯
image
法国的拉普拉斯
image
回到最开始的业务场景

通过统计描述,分析师已经了解了配件A过去的日消耗量波动情况,现希望基于历史数据设定库存控制线,要求该库存量能够保证99%的使用日不会出现库存断货情况。

该怎么办呢?

控制线设置成均数可以吗?

肯定是不可以的,因为均值只是代表一般水平,换句话说,有大概一半的数据在均数以下,有一半在以上,如果把均数设置为库存控制线,最多也就只能满足50%左右的使用日不会出现库存断货情况

如果使用百分位数呢?

计算P99位置的数值,这样理论是可以的,但是百分位数对于样本量比较大的数据集才具有意义,样本量太小,实际意义不大

举个例子:零件日消耗量分布从1-100,我们随机抽取50个样本,计算P99,要求这个值要大于99%的日消耗,假设这个样本数据的最大值是80,比这个数小的是78,最终我们计算出来的是78,显然跟100差的很远,这个数据拿到实际应用中,是不满足要求的,因为样本量少造成的误差太大的缘故。

那该怎么办?
那就用到接下来要讲的内容
从频数分布到概率分布
image

那我们来分析一下
直方图/频率图的性质
直条的面积实质上就是频率(或者百分比)
面积=直条高度X宽度(组距) = 频率
因此直条的面积相加等于1
当样本量越来越大,频率(面积) 趋向概率
并且组距越来越小时,直方条的顶缩成点并且各个直方条的顶连接成一条曲线,这条曲线就是 概率密度分布曲线
概率密度的概念和固体的密度基本类似
哪个地方的概率大说明密度就大
image
这就是正态分布