注:点估计是参数估计中的一种。点估计常用的方法有两种:矩估计和最大似然估计。之所以要做估计,最本质的问题是我们能获得的信息量(样本的数量)有限,因此只能在有限的信息中,用合理的方法、在可接受的精度或置信度下做近似计算,以便对总体有一个大概的认识,也就是将某种在有限样本中获得的规律,推广到更大的样本量上。
某大学新生有4000人参加第一学期的《微积分》考试。现随机选出100名同学,计算得到他们的平均成绩为68.5分,标准差为12.2分,试估计全体同学的平均成绩。
如果我们使用这100名同学的平均成绩来估计全体同学的平均成绩,那么我们就完成了一次矩估计。
根据中的约定,我们使用以下符号表示不同的矩:
矩估计是英国统计学家卡尔·皮尔逊于1894年提出的。是基于一种简单的 “替换” 思想建立起来的一种估计方法。其基本思想是以样本矩估计总体矩,以样本矩的函数估计总体矩的函数。
辛钦大数定律和依概率收敛的性质。
上面用公式表示了用样本的原点矩估计总体的原点矩或用样本原点矩的函数估计总体原点矩的函数,将原点矩换成中心矩也同样成立。
简单来说,只要可以将一个待估计的参数用总体矩(单个矩或不同矩的函数)表示出来,然后用对应的样本矩替换总体矩就可以了。
(2)求各参数关于$k$阶原点矩的反函数(即,用总体距表示未知参数),
在实际应用时,为求解方便,也可用总体中心矩$\beta_i$替换总体原点矩$\alpha_i$,相应的,以样本中心矩$B_i$估计总体中心矩$\beta_i$.
Notice: 采用的矩不同,得出的矩估计也可能不同。
参考,part2部分,总结了常见的统计量(所有的样本矩都是统计量,有些统计量本身也是样本矩)以及使用样本矩估计总体矩的例子。
总体方差的估计是一个比较特殊的例子,值得单独拿出来说一说。这是因为总体方差与总体的二阶中心矩相同,但是样本方差的计算公式与样本的二阶中心矩并不相同。
设$X$是一个随机变量,且方差存在,总体和样本的均值分别为$\mu, \ \bar{X}$. 则下面是该随机变量4种不同的数字特征的计算方式:
此时我们有两种方式来对总体方差进行估计,样本的二阶中心矩(矩估计)或样本方差(非矩估计)。那么哪一个估计更好呢?此时可以使用中"点估计的评价"来比较这两种方法。参考中的证明过程,我们可以知道:
样本二阶中心矩与样本方差之间,只有分母上有差别,当n比较小的时候,$n$与$(n-1)$之间的差别对结果的影响很大,但是当$n \to +\infty$时,这种差异就可以忽略了。以上就是我们为什么使用样本方差而不是样本二阶中心矩来估计总体方差的原因(此时并不是矩估计)。
考察以下例子:假设一个罐中放着许多白球和黑球,并假定已经知道两种球的数目之比是$1 : 3$,但不知道哪种颜色的球多。如果采用有放回抽样方法从罐中取5个球,观察结果为:黑、白、黑、黑、黑,估计取到黑球的概率$p$.
在该题目中,总体服从参数为p的伯努利分布。
由上面的求解过程可以看到,我们尝试了所有可能的取值($p = 1/4$或$p = 3/4$),然后选择了一个最有可能产生出观察到的样本($1, 0, 1, 1, 1$)的取值($p = 3/4$)。
式1-1表示所有观察值$x_1, ..., x_n$同时发生的概率(所有单个观察值发生概率的乘积). 这个乘积有一个专门的名字:似然函数.
参考1.1中的例子,我们希望参数$\theta$的估计值$\hat{\theta}$能够使得所有观察值同时发生的概率最大,也就是似然函数取到最大值:
式子1-2就是极大似然估计的基本原理:将似然函数取到最大值时参数的取值作为最优的估计值;反过来也可以尝试参数所有可能的取值,使得似然函数取到最大值的取值就是最优估计值。
上面的不同思路也反映了求解的两种方式:第一种是直接求似然函数的极大值;第二种是带入所有参数比较函数值的大小。
由于每个样本之间都是独立同分布的,因此这些样本的联合概率密度函数就是所有单个样本概率密度函数的乘积(即,这些样本所代表的事件同时发生)
取对数是为了计算方便(对多项式加法求导比对多项连乘求导简单)
对各个参数求偏导,令偏导数等于0.
解上面的方程,就可以求出参数$\theta_j$的最大似然估计。若似然函数不可微,需要用定义求。
若已获得$n = 10$的样本值如下:
这里利用最大似然估计得到的结果与矩估计得到的结果相同。
矩估计和最大似然估计是两个不同的点估计方法。有时候这两种方法得到的结果相同,有时候不同。
使用矩估计时,不需要知道随机变量的概率密度函数(有些情况可以假设为正态分布),需要将未知参数表示为总体矩的函数;
使用最大似然估计时,需要知道随机变量概率密度函数的确定形式(可以包含参数),然后通过求似然函数的极值的方式得到最优解。
从它们的定义和求解过程来看,矩估计更简单一些但是适用范围也比较窄(无法表示为总体矩的函数就无法使用该方法);最大似然估计需要的条件更多,适用范围也更广一些。
欢迎阅读“”系列文章
中国大学MOOC:浙江大学&哈工大,概率论与数理统计
版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。