Jessie.Y's Den

A blog for recoding life in pieces

Arvin.W, another owner.


WELCOME TO OUR WORLD

有关标准方差的十万个为什么

Q1: 什么叫标准方差?

A:标准方差(或者标准差,英语:Standard Deviation, SD),数学符号为 (sigma),在概率统计中作为一组数值的离散程度。标准差定义为:方差的算术平方根。

Q2:方差又是什么?

A:方差(Variance),在概率论中,一个随机变量的方差描述的是随机变量的离散程度,即该随机变量距离其期望值的距离。

定义:设为服从分布的随机变量,如果是随机变量的期望值(平均数 ),则随机变量 的方差为:

回到Q1,标准差的定义为:

Q3:有了方差为什么需要标准差?

A:方差和标准差都是描述随机变量的离散程度,但是标准差的量纲和均值的量纲(单位)是一致的,在描述一个波动范围时,标准差比方差更方便。

举个栗子:某班男生的平均身高是170cm,标准差是10cm,那么方差就是100 ,通过标准差就可以这样描述:本班男生身高分布式170 10cm ;方差就无法做到这样描述。

Q4:总体和样本的定义是什么?

A:在数理统计中,把研究对象的全体称为总体(Population),而把组成总体的各个元素称为个体,代表总体的指标是一个随机变量,所以总体就是指某个随机变量可能取的值的全体。

从总体中抽取若干个个体,就是对代表总体的随机变量进行若干次观测,从总体中抽取若干个个体的过程称为抽样,抽样的结果称为样本(Sample),样本中所含个体的数量称为样本容量。

通过观察样本的某一个或者某一些属性,依据所获得的数据对总体的特征得出一定可靠性的估计判断,从而达到对总体的认识。

Q5:总体的标准差计算公式(离散型)

A: ( 为平均值)

Q6:样本的标准差计算公式(离散型)

A:在真实世界中,找到一个总体的真实的标准差是不现实的。大多数情况下,总体标准差是通过随机抽取一定量的样本并计算样本标准差估计的。

从一大组数值 当中取出一样本数值组合 ,定义其样本标准差为:

样本方差 是对总体方差无偏估计。分母中之所以用而不是像总体样本方差那样用,是因为自由度

Q7:什么叫自由度?

A:根据维基百科的定义:统计学中,自由度(Degree of freedom)是指当以样本的统计量来估计总体的参数时,样本中能独立或者自由变化的数据的个数,称为该统计量的自由度。在数学上,自由度是指一个随机向量的维度数,也就是一个向量能被完整描述所需的最少的单位向量数。

例子:

1)若存在两个数,而,那么自由度为1,因为其实只有变量能正在自由变化,来确定。

2)估计总体的平均值,由于样本中的个数都是相互独立的,任何一个尚未抽出的数据都不受已经抽出的数值的影响,所以自由度为

Q8:什么叫无偏估计?

A:在统计学中,估计量的偏差是指此估计量的期望值与估计参数的真实值之差。偏差为零的估计量成为无偏,否则就是有偏的。

举个例子:比如要知道某个学校一年级的上千个学生平均学业水平(真实值),一种是直接对这上千个学生进行准确计算;另外一种是通过抽样来进行估计。前一种方法,如果人数增加,工作量会随着增大,甚至无法完成;第二种方法是常用的方法,通过统计学进行抽样,根据抽样的结果对真实值进行估计。抽样过程如下:

随机抽取20个学生,计算他们的学业水平平均值,即每次随机抽取20个人,进行多次抽样。因为是随机,所以每次抽取的20个学生,不可能一模一样,对不对?假如我抽取了10次,那就会得到10个不同的平均值 ,这个均值是随着我抽样不同而变化的,我的抽样是随机的,那么这个均值也应该是随机的,也会服从一定的统计分布规律,也就是说,如果抽样次数增加,会得出很多均值,这么多均值的平均数应该是接近真实值。

换言之,如果一个估计量的期望等于总体的真实值,那么这个估计量就是无偏的;如果估计量的期望不等于总体的真实值,那么这个估计量就是有偏估计量。

Q9:为什么样本的标准差根号下的分母是,而不是像总体标准差那样是

A:两种解释:第一种从自由度的角度,另外一种就是从无偏估计量这个角度来说明。

自由度的角度:总体的方差,是通过样本的统计量来估计,而必须用到样本均值来计算。在抽样完成之后就已经确定,所以大小为的样本中只要个数确定,第个数就只有一个数值能使样本符合,也就是说只有个数可以自由变化。

无偏估计量角度:分母 为可以使得样本方差是总体方差的无偏估计量,而会得到一个有偏估计量,具体推到过程就此不表了。

最近的文章

linux环境变量---查看和设置

1、查看linux环境变量 env 查看当前用户的所有环境变量; 查看单个环境变量值;如echo $PATH2、常用的环境变量 PATH:在shell中输入的所有命令都会在该目录查找命令路径;该变量在我们日常环境变量设置中相当常用; LD_LIBRARY_PATH:c程序相关的动态引用库路径;一般在程序运行过程中,需要调用c相关的库时,会到该路径下查到对应库;  LIB:c程序相关的静态库路径;在安装或编译程序时,往往到该路径下查找链接库。3、环境变量设置1)用户可以用过编辑~/...…

继续阅读
更早的文章

Python的`__slots__`魔法

在Python中,每个类都有实例属性,默认情况下Python用一个字典来保存一个对象的实例属性。这非常有用,因为它允许我们在运行时去设置任意的新属性。然而,对于有着已知属性的小类来说,它可能是个瓶颈,这个字典浪费了很多内存。Python不能在对象创建时直接分配一个固定量的内存来保存所有的属性,因此如果你创建许多对象(我指的是成千上万个),它会消耗掉很多内存。不过还是有一个方法来规避这个问题。这个方法需要使用__slots__来告诉Python不要使用字典,而且只给一个固定集合的属性分配空间...…

继续阅读