统计数据的抽样分布是一种概率分布,是通过从同一总体中抽取许多给定大小的随机样本而创建的。这些分布可以了解样本统计量如何因样本而异。
抽样分布对于推理统计至关重要,因为它们允许在其他可能值的更广泛背景下理解特定样本统计。至关重要的是可以计算与样本相关的概率。
抽样分布描述了各种样本统计的值的分类。
虽然均值的抽样分布是最常见的类型,但它们可以表征其他统计量,例如假设检验中的中位数、标准差、范围、相关性和检验统计量。
本文可以了解到:
- 统计量以及排序。
- 代表性的机率密度函数包括正态分布、标准正态分布、卡方分布、t分布、F分布。
- 机率密度函数的图形和横轴组成的面积始终为1。
- 机率密度函数的图形和横轴组成的面积可以认为与比例及机率相同。
统计量
样本均值、样本比例、样本方差等都是统计量。统计量是样本的一个函数、是统计推断的基础。
次序统计量
中位数、分位数、四分位数等都是次序统计量。
比例
总体(或样本)中具有某种属性的单位与全部单位总数之比。
机率密度函数
以《三国志 11》武将武力数据距离,总体样本为 811 人。 分别以步长10、5、3、1步长举例进行直方图的计算。这么一个过程称为机率密度函数。
步长10
步长5
步长3
步长1
抽样分布
- 样本统计量的概率分布,是一种理论分布。在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布。
- 随机变量是样本统计量,样本均值,样本比例,样本方差等。
- 结果来自容量相同的所有可能样本。
- 提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据。
样本均值之差的抽样分布
两个总体都为正态分布
两个样本均值之差的抽样分布服从正态分布,其分布的数学期望为两个总体均值之差。
方差为各自的方差之和。
正态分布
exp 或者 e 称为自然对数的低,约为 2.7182......
主要特征
- 正态分布函数密度曲线在横轴上方均数处最高。
- 正态分布函数密度曲线以均数为中心,左右对称。
- 正态分布函数密度曲线受均值 (μ) 和标准差 (σ) 影响。
用Python实现各种类型的正太分布
# Python实现正态分布# 绘制正态分布概率密度函数import mathimport numpy as npimport matplotlib.pyplot as plt# 均值μu = 0 u01 = -2# 标准差δsig = math.sqrt(0.2) sig01 = math.sqrt(1)sig02 = math.sqrt(5)sig_u01 = math.sqrt(0.5)x = np.linspace(u - 3*sig, u + 3*sig, 50)x_01 = np.linspace(u - 6 * sig, u + 6 * sig, 50)x_02 = np.linspace(u - 10 * sig, u + 10 * sig, 50)x_u01 = np.linspace(u - 10 * sig, u + 1 * sig, 50)y_sig = np.exp(-(x - u) ** 2 /(2* sig **2))/(math.sqrt(2*math.pi)*sig)y_sig01 = np.exp(-(x_01 - u) ** 2 /(2* sig01 **2))/(math.sqrt(2*math.pi)*sig01)y_sig02 = np.exp(-(x_02 - u) ** 2 / (2 * sig02 ** 2)) / (math.sqrt(2 * math.pi) * sig02)y_sig_u01 = np.exp(-(x_u01 - u01) ** 2 / (2 * sig_u01 ** 2)) / (math.sqrt(2 * math.pi) * sig_u01)plt.plot(x, y_sig, "r-", linewidth=2)plt.plot(x_01, y_sig01, "g-", linewidth=2)plt.plot(x_02, y_sig02, "b-", linewidth=2)plt.plot(x_u01, y_sig_u01, "m-", linewidth=2)plt.grid(True)plt.show()
因此我们在生成随机数据进行测试的时候需要输入两个内容,均值和标准差即可。确定的随机变量 X 的分布称为正态分布记为 N(μ,σ2) 。
标准正态分布
面对的是数值型变量。
正态分布 N(μ,σ2) 函数曲线下的面积
- 正常范围:68.27%的面积在平均值左右的一个标准差范围内
- 优秀范围:95.45%的面积在平均值左右两个标准差2σ的范围内
- 异常范围:99.73%的面积在平均值左右三个标准差3σ的范围内
- 超常范围:99.99%的面积在平均值左右四个标准差4σ的范围内
例如:Z在数量上表示该新变量为该标准正态分布下标准差σ=1的倍数,根据正态分布计算对照表计算,范围是-3到+3。
推荐一个简单的可视化计算工具。标准正态分布表 计算可视化
例如:某学科考试平均分是 60,方差是 88,记作 ~X~N(60,88) ,计算[52,68]这个区间成绩的概率是多少?计算 [50,70] 这个区间成绩的概率是多少?
实际上求的是 P(μ?σ<x<μ+σ) 的值。则 [52,68] 是1个 σ ,[50,70]是1.25个 σ 。然后拿上面的工具拖动以下就搞定了。
卡方分布
面对的是分类型变量。根据不同的自由度 (n) 图形变化也不一样。
n个独立同分布的随机变量,都服从标准正太分布,它们的平方和作为一个新的随机变量的分布,就是卡方分布。
自由度类似 y = ax + b 中的 a 的斜率,可以自有的变化从而对图形产生变化,如果数据集中有 n 个元素,可以有 n - 1 个元素自有原则,称为自由度。
卡方分布的特征:
- 随机变量的平方和,分布的变量值始终为正。
- 分布的形状取决于其自由度 n 的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称。
卡方分布面积计算: 卡方分布表
t分布
我们平常说的t分布,都是指小样本的分布。但其实正态分布,可以算作t分布的特例。也就是说 t 分布,在大小样本中都是通用的。
F分布
随着自由度逐渐增大,t分布逐渐接近标准正态分布。
中心极限定理
从均值为μ,方差为 σ2 的一个任意总体中抽取容量为 n 的样本,当 n 充分大时,样本均值的抽样分布近似服从均值为 μ、方差为 σ2/n 的正态分布。
简单来说:随机抽取的样本的均值等于总体的平均值,不管任何分布,任意总体样本均值均围绕总体平均值,且呈现正态分布。