统计学与概率论的区别就是归纳和演绎,前者通过样本推测总体的分布,而后者已知总体分布去研究样本。因此参数估计则是归纳的过程,参数估计有两种形式:点估计区间估计(点估计和区间估计都是对于未知参数的估计,而点估计给出的是一个参数可能的值区间估计给出的是参数可能在的范围

基本概念

  • 统计量: 样本中包含着总体的信息, 针对不同要求构造出样本的某种函数, 这种函数在统计学中称统计量。
  • 参数空间: 假设总体概率密度函数形式已知,未知分布中的参数$\theta$, $\theta$ 全部可容许值组成的集合称为参数空间, 记为$\Theta$

点估计

点估计的概念

点估计(Point estimation :设$x_1, …, x_n$ 来自总体的一个样本,用于估计未知参数$\theta$ 统计量$\hat{\theta}=\hat{\theta}(x_1,…,x_n)$ 为$\theta$ 估计量,或称为$\theta$ 点估计。

点估计的方法

  1. 矩估计

    定义 :设总体概率函数已知,为$p(x;\theta_1,…,\theta_k)$,$(\theta_1,…,\theta_k)\in\Theta$ 未知参数或参数向量,$x_1,…,x_n$ 样本,假定总体的$k$ 原点矩$\mu_k$ 在,则对所有的$j$,$o<j<k$,$\mu_j$ 存在,若假设$\theta_1,…,\theta_k$ 够表示成$\mu_1,…,\mu_k$ 函数$\theta_j=\theta_j(\mu_1,…,\mu_k)$,则可给出诸$\theta_j$ 矩估计:

$$
\hat{\theta_j}=\theta_j(a_1,…,a_k),\quad j=1,…,k
$$

其中$a_1,…,a_k$ 前$k$ 样本原点矩$a_j=\frac{1}{n}\sum_{i=1}^{n}x_i^j$.

矩估计基于大数定律(格里纹科定理),实质是用经验分布函数去替换总体分布,矩估计可以概括为:

  • 用样本矩代替总体矩(可以是原点矩也可以是中心矩);

    • 用样本矩的函数去替换相应的总体矩的函数。

    :矩估计可能是不唯一的,尽量使用低阶矩给出未知参数的估计 。

  1. 最大似然估计

    定义 :设总体的概率函数为$p(x;\theta),\ \theta\in\Theta$,其中$\theta$ 一个未知参数或几个未知参数组成的参数向量,$\Theta$ 参数空间,$x_1,…,x_n$ 来自该总体的样本,将样本的联合概率函数看成$\theta$ 函数,用$L(\theta;x_1,…,x_n)$ 示,简记为$L(\theta)$,
    $$
    L(\theta)=L(\theta;x_1,…,x_n)=p(x_1;\theta)p(x_2;\theta)…p(x_n;\theta)
    $$
    $L(\theta)$ 为样本的似然函数。若统计量$\hat{\theta}=\hat{\theta}(x_1,…,x_n)$ 足
    $$
    L(\hat{\theta})=\max_{\theta\in\Theta}L(\theta)
    $$
    则称$\hat{\theta}$ $\theta$ 最大似然估计,简称MLE(maximum likelihood estimate).

    :最大似然估计基于样本观测数据,根据概率论思想进行参数估计,首先抽取一定样本,默认这些样本的出现概率是符合原始分布的,即恰好抽到这些样本是因为这些样本出现的概率极大,然后根据概率密度计算联合概率,形成似然函数,似然函数极值位置即为参数的估计值。最大似然估计的前提是已知数据的分布。

    最大似然估计步骤

    • 写出似然函数;
    • 对似然函数取对数,并整理;
    • 求参数向量的偏导,令其为0,得到似然方程;
    • 求解似然方程,其解为参数值。
  2. 最小均方误差估计

    在样本量一定时,评价一个点估计好坏的度量指标可使用估计值$\hat{\theta}$ 参数真值$\theta$ 距离函数,最常用的是距离平方,由于$\hat{\theta}$ 有随机性,对该函数求期望即得均方误差
    $$
    \begin{align}
    MSE(\hat{\theta})&=E(\hat{\theta}-\theta)^2\
    &=E[(\hat{\theta}-E\hat{\theta})+(E\hat{\theta}-\theta)]^2\
    &=E(\hat{\theta}-E\hat{\theta})^2+(E\hat{\theta}-\theta)^2+\underbrace{2E[(\hat{\theta}-E\hat{\theta})(E\hat{\theta}-\theta)]}{E(\hat{\theta}-E\hat{\theta})=0}\
    &=\underbrace{Var(\hat{\theta})}
    {点估计的方差}+\underbrace{(E\hat{\theta}-\theta)^2}_{偏差的平方}
    \end{align}
    $$
    其中,如果$\hat{\theta}$ $\theta$ 无偏估计,则$MSE(\hat{\theta})=Var(\hat{\theta})$,此时用均方误差评价点估计与用方差是完全一样的。如果如果$\hat{\theta}$ 是$\theta$ 无偏估计,就要看其均方误差$MSE(\hat{\theta})$,即不仅要看其方差大小,还要看其偏差大小。

    定义 :设有样本$x_1,…,x_n$,对待估参数$\theta$,设有一个估计类,如果对该估计类中另外任意一个$\theta$ 估计$\widetilde{\theta}$,在参数空间$\Theta$ 都有$MSE_\theta(\hat{\theta})\leq MSE_\theta(\widetilde{\theta})$,称$\hat{\theta}(x_1,…,x_n)$ 该估计类中$\theta$ 一致最小均方误差估计。

  3. 最小方差无偏估计

    定义 :设$\hat{\theta}$ $\theta$ 一个无偏估计,如果对另外任意一个$\theta$ 无偏估计$\widetilde{\theta}$,在参数空间$\Theta={\theta}$ 都有$Var_{\theta}(\hat{\theta})\leq Var_{\theta}(\widetilde{\theta})$,则称$\hat{\theta}$ $\theta$ 一致最小方差无偏估计,简记为UMVUE

    判断准则 :设$\hat{\theta}=\hat{\theta}(x_1,…,x_n)$ $\theta$ 一个无偏估计,$Var(\hat{\theta})<+\infty$.如果对任意一个满足$E(\varphi(x_1,…,x_n))=0$ $\varphi$,都有
    $$
    Cov_\theta(\hat{\theta},\varphi)=0,\quad\forall\theta\in\Theta,
    $$
    则$\hat{\theta}$ $\theta$ UMVUE.

  4. 贝叶斯估计

    区别于频率学派,在统计推断中贝叶斯用到了三种信息** :总体信息、样本信息和先验信息**(频率学派只用了前两种),其中:

    • 总体信息:总体信息即总体分布或总体所属分布族提供的信息,如,若已知总体是正态分布,则可以知道很多信息;
    • 样本信息:样本信息即抽取样本所得观测值提供的信息,如,在有了样本观测值后,可以根据它知道总体的一些特征数;
    • 先验信息:若把抽取样本看作做一次试验,则样本信息就是试验中得到的信息,如,在一次抽样后,这第一次的抽样就是先验信息。先验信息来源于经验和历史资料。

    回顾贝叶斯公式:设${B_1, B_2, …B_n}$ 样本空间的一个分割,$A$ $\Omega$ 的一个事件,$P(B_i)>0$,$i=1,2,…,n$,$P(A)>0$,则
    $$
    P(B_i|A)=\frac{P(A|B_i)P(B_i)}{\sum_{j=1}^{n}P(A|B_j)P(B_j)}
    $$
    贝叶斯密度函数形式

    • 在参数$\theta$ 布已知(已假设)的情况下,$p(x|\theta)$ 示随机变量$\theta$ 某个给定值时总体的条件概率函数,(参考$P(A|B)$);

    • 任一未知量$\theta$ 可以看作随机变量,可用一个概率分布去描述,这个分布成为先验分布,该先验分布$\pi(\theta)$,(参考$P(B)$);

    • 贝叶斯的观点,样本$X=(x_1,…,x_n)$ 产生需分两步:

      • 从先验分布$\pi(\theta)$ 生一个样本$\theta_0$;
      • 从$p(X|\theta_0)$ 产生一组样本。

      此时,样本$X=(x_1,…,x_n)$ 联合条件概率函数(参考$\sum_{j=1}^{n}P(A|B_j)$)为
      $$
      p(X|\theta_0)=p(x_1,…,x_n|\theta_0)=\prod^{n}_{i=1}p(x_i|\theta_0)
      $$

    • 因为$\theta_0$ 知,是从先验分布$\pi(\theta)$ 产生的,所以需要考虑它的发生概率,样本$X$ 参数$\theta$ 联合分布(参考$\sum_{j=1}^{n}P(A|B_j)P(B_j)$)为
      $$
      h(X,\theta)=p(X|\theta)\pi(\theta)
      $$

    • 因为目的是对$\theta$ 行推断,所以在有样本观测值$X=(x_1,…,x_n)$ 后,可依据$h(X,\theta)$ $\theta$ 出推断,按照乘法公式(参考1.5.2节),$h(X,\theta)$ 分解为
      $$
      h(X,\theta)=\pi(\theta|X)m(X)
      $$
      其中,$m(X)$ $X$ 边际概率函数,类比$\pi(\theta)$,
      $$
      m(X)=\int_\Theta h(X,\theta)d\theta=\int_\Theta p(X|\theta)\pi(\theta)d\theta
      $$
      所以可通过条件概率$\pi(\theta|X)$ 断$\theta$ 分布
      $$
      \pi(\theta|X)=\frac{h(X,\theta)}{m(X)}=\frac{p(X|\theta)\pi(\theta)}{\int_{\Theta}p(X|\theta)\pi(\theta)d\theta}
      $$
      该分布成为$\theta$ 后验分布它其实是利用总体和样本对先验分布$\pi(\theta)$ 整的结果,比$\pi(\theta)$ 接近$\theta$ 实际情况(机器学习里的贝叶斯模型就是基于这样的原理)

      Flag :感觉贝叶斯定理很有意思,今后也会学习相关的贝叶斯分析数据,敬请期待~

点估计的优良性准则

  1. 无偏性 :设$\hat{\theta}=\hat{\theta}(x_1,…,x_n)$ $\theta$ 一个估计,$\theta$ 参数空间为$\Theta$,若对任意的$\theta \in \Theta$,有
    $$
    E_{\theta}(\hat{\theta})=\theta
    $$
    则称$\hat{\theta}$ $\theta$ 无偏估计,否则称为有偏估计。无偏性的要求也可以改写为$E_{\theta}(\hat{\theta-\theta})=0$,无偏性表示表示估计参数与真实参数没有系统偏差。

    一个重要的结论 :样本均值$\bar{x}=\frac{1}{n}\sum_{i=1}^nx_i$ 总体均值$\mu$ 无偏估计。样本方差$s_n^2=\frac{1}{n}\sum_{i=1}^n(x_i-\bar{x})^2$ 是总体方差$\sigma^2$ 无偏估计(而是渐进无偏估计),因此需要对样本方差进行修正,$s^2=\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})^2$.

    • 样本均值的无偏性推导

    $$
    \begin{align}
    E(\bar{x})=&E(\frac{1}{n}\sum_{i=1}^nx_i)\
    =&\frac{1}{n}\sum_{i=1}^nE(x_i),\ x_i为iid\
    =&\frac{1}{n}\sum_{i=1}^n\mu\
    =&\mu
    \end{align}
    $$

    • 样本方差的有偏性推导
      $$
      \begin{align}
      E(s_n^2)=&E[\frac{1}{n}\sum_{i=1}^n(x_i-\bar{x})^2]\
      =&E[\frac{1}{n}\sum_{i=1}^n((x_i-\mu)-\frac{1}{n}(\bar{x}-\mu))^2]\
      =&E[\frac{1}{n}\sum_{i=1}^n((x_i-\mu)^2-\frac{2}{n}(x_i-\mu)(\bar{x}-\mu)+\frac{1}{n}(\bar{x}-\mu)^2)]\
      =&E[\frac{1}{n}\sum_{i=1}^n(x_i-\mu)^2-\frac{2}{n}\sum_{i=1}^n(x_i-\mu)(\bar{x}-\mu)+(\bar{x}-\mu)^2],\ 其中,\bar{X}-\mu=\frac{1}{n}\sum_{i=1}^n(x_i-\mu)\
      =&E[\frac{1}{n}\sum_{i=1}^n(x_i-\mu)^2-2(\bar{x}-\mu)^2+(\bar{x}-\mu)^2]\
      =&E[\frac{1}{n}\sum_{i=1}^n(x_i-\mu)^2-(\bar{x}-\mu)^2]\
      =&E[\frac{1}{n}\sum_{i=1}^n(x_i-\mu)^2]-E[(\bar{x}-\mu)^2]\
      =&\sigma^2-E[(\bar{x}-\mu)^2]\ …(1)\
      =&\sigma^2-\frac{\sigma^2}{n}\
      =&\frac{n-1}{n}\sigma^2,\quad 当n\rightarrow \infty时, E(s_n^2)\rightarrow \sigma^2\
      \
      E[(\bar{x}-\mu)^2]=&E(\bar{x}^2)-2\mu E(\bar{x})+\mu^2\
      =&E(\bar{x}^2)-\mu^2\
      =&Var(\bar{x})+E^2(\bar{x})-\mu^2\
      =&Var(x)\
      =&\frac{\sigma^2}{n}\ …代入(1)式
      \end{align}
      $$
  2. 有效性

    无偏估计往往有很多种,以总体均值为例,$x_1,…,x_n$ 取自某总体的样本,样本均值$\mu$ 样本$x_i$ 是总体均值的无偏估计,对于两个估计参数的选取需要基于一个度量无偏估计优劣的准则。有效性作为这样的准则,反映了参数估计值和参数真值的波动,波动大小可用方差来衡量,波动越小表示参数的估计越有效。

    设$\hat{\theta_1}$,$\hat{\theta_2}$ $\theta$ 两个无偏估计,如果对任意的$\theta\in\Theta$
    $$
    Var(\hat{\theta}_1)\leq Var(\hat{\theta}_2)
    $$
    且至少有一个$\theta\in\Theta$ 得上述不等号严格成立,则称$\hat{\theta}_1$ $\hat{\theta}_2$ 效。

  3. 相合性

    根据格里纹科定理,随着样本量不断增大,经验分布函数逼近真实分布函数,即设$\theta\in\Theta$ 未知参数,$\hat{\theta}_n=\hat{\theta}n(x_1,…,x_n)$ $\theta$ 一个估计量,$n$ 样本容量,若对任何一个$\epsilon>0$,有
    $$
    \lim
    {n\rightarrow\infty}P(|\hat{\theta}_n-\theta|\geq\epsilon)=0
    $$
    则称$\hat{\theta}_n$ 参数$\theta$ 相合估计。

    定理1 :设$\hat{\theta}_n=\hat{\theta}n(x_1,…,x_n)$ $\theta$ 一个估计量,若
    $$
    \lim
    {n\rightarrow\infty}E(\hat{\theta}n)=\theta,\quad\lim{n\rightarrow\infty}Var(\hat{\theta}_n)=0
    $$
    则$\hat{\theta}_n$ $\theta$ 相合估计。

    定理2 :若$\hat{\theta}{n1},…,\hat{\theta}{nk}$ 别是$\theta_1,…,\theta_k$ 相合估计,$\eta=g(\theta_1,…,\theta_k)$ $\theta_1,…,\theta_k$ 连续函数,则$\hat{\eta}n=g(\hat{\theta}{n1},…,\hat{\theta}_{nk})$ $\eta$ 相合估计。

    矩估计一般都具有相合性:

    • 样本均值是总体均值的相合估计;
    • 样本标准差是总体标准差的相合估计;
    • 样本变异系数$s/\bar{x}$ 总体变异系数的相合估计。
  4. 渐进正态性(MLE)

    在很一般条件下,总体分布$p(x;\theta)$ 的$\theta$ MLE$\hat{\theta}_n$ 有相合性和渐进正态性,即$\hat{\theta}n\sim AN(\theta,\frac{1}{nI(\theta)})$,其中$n$ 样本容量,$I(\theta)=\int{-\infty}^{\infty}(\frac{\part{lnp}}{\part\theta})^2p(x;\theta)dx$ 费希尔信息量。

  5. 充分性(UMVUE)

    • 任一参数$\theta$ UMVUE不一定存在,若存在,则它一定是充分统计量的函数;
    • 若$\theta$ 某个无偏估计$\hat{\theta}$ 是充分统计量$T=T(x_1,…,x_n)$ 函数,则通过条件期望可以获得一个新的无偏估计$\widetilde{\theta}=E(\hat{\theta|T})$,且方差比原估计的方差要小;
    • 考虑$\theta$ 估计时,只需要在其充分统计量的函数中寻找即可,该说法对所有统计推断都是正确的,这便是充分性原则。

区间估计

区间估计的概念

  1. 双侧区间

    设$\theta$ 总体的一个参数,其参数空间为$\Theta$,$x_1,…,x_n$ 来自该总体的样本,对给定的一个$\alpha\quad(0<\alpha<1)$,假设有两个统计量$\hat{\theta}_L=\hat{\theta}_L(x_1,…,x_n)$ $\hat{\theta}_U=\hat{\theta}U(x_1,…,x_n)$,若对任意的$\theta\in\Theta$,有
    $$
    P
    \theta(\hat{\theta}_L\leq\theta\leq\hat{\theta}_U)\geq(=)1-\alpha
    $$
    其中,总体为连续分布时取等号,表示用足了置信水平。称随机区间$[\hat{\theta}_L,\hat{\theta}_U]$ $\theta$ 置信水平为$1-\alpha$ 置信区间,或简称$[\hat{\theta}_L,\hat{\theta}_U]$ $\theta$ $1-\alpha$ 信区间,$\hat{\theta}_L$ $\hat{\theta}_U$ 别称为$\theta$ 置信下限置信上限

    置信水平$1-\alpha$ 频率解释:在大量的区间估计观测值中,至少有$100(1-\alpha)%$ 含$\theta$,如下图所示,其置信度为0.95.

  2. 单侧区间

    设$\hat{\theta}_L=\hat{\theta}L(x_1,…,x_n)$ 统计量,对给定的$\alpha\in(0,1)$ 任意的$\theta\in\Theta$,有
    $$
    P
    \theta(\hat{\theta}_L\leq\theta)\geq1-\alpha,\quad\forall\theta\in\Theta
    $$
    则称$\hat{\theta}_L$ $\theta$ 置信水平为$1-\alpha$ 置信下限。同理,设$\hat{\theta}_U=\hat{\theta}U(x_1,…,x_n)$ 统计量,对给定的$\alpha\in(0,1)$ 任意的$\theta\in\Theta$,有
    $$
    P
    \theta(\hat{\theta}_L\geq\theta)\geq1-\alpha,\quad\forall\theta\in\Theta
    $$
    则称$\hat{\theta}_L$ $\theta$ 置信水平为$1-\alpha$ 置信上限

区间估计的方法

  1. 枢轴量法

    Step 1:设法构造一个样本和$\theta$ 函数$G=G(x_1,…,x_n,\theta)$ 得**$G$ 分布不依赖于未知参数**,称具有这种性质的$G$ 枢轴量。

    Step 2:适当地选择两个常数c,d,使对给定的$\alpha\quad(0<\alpha<1)$,有
    $$
    P(c\leq G\leq d)=1-\alpha
    $$
    (在离散场合,将上式等号改为$\geq$)

    Step 3:假如能将$c\leq G\leq d$ 行不等式等价变形化为$\hat{\theta}_L\leq\theta\leq\hat{\theta}U$,则有
    $$
    P
    \theta(\hat{\theta}_L\leq\theta\leq\hat{\theta}_U)=1-\alpha
    $$
    表明$[\hat{\theta}_L,\hat{\theta}_U]$ $\theta$ $1-\alpha$ 等置信区间。

    :满足条件的c和d有很多,最终选择的目的是希望平均长度$E_\theta(\hat{\theta}_U)-\hat{\theta}L$ 可能短,但在一些场合中很难做到这一点,因此可以选择c和d,使得两个尾部概率各为$\alpha/2$,即
    $$
    P
    \theta(G<c)=P_\theta(G>d)=\alpha/2
    $$
    得到等尾置信区间

    例:设$x_1,…,x_n$ 来自均匀总体$U(0,\theta)$ 一个样本,试对设定的$\alpha\ (0<\alpha<1)$ 出$\theta$ $1-\alpha$ 等置信区间。

    解:三步法:

    • 已知$\theta$ 最大似然估计为样本的最大次序统计量$x_{(n)}$,而$x_{(n)}/\theta$ 密度函数为

    $$
    p(y;\theta)=ny^{n-1},\quad 0<y<1
    $$

    它与参数$\theta$ 关,故可取$x_{(n)}/\theta$ 为枢轴量$G$。

    • 由于$x_{(n)}/\theta$ 分布函数为$F(y)=y^n$,$0<y<1$,故$P(c\leq x_{(n)}/\theta\leq d=d^n-c^n)$,因此可以选择适当的c和d满足

    $$
    d^n-c^n=1-\alpha
    $$

    • 在$0\leq c<d\leq 1$ $d^n-c^n=1-\alpha$ 条件下,当$d=1, c=\sqrt[n]{\alpha}$ ,$E_\theta(\hat{\theta}U)-\hat{\theta}L$ 最小值,所以$[x{(n)},x{(n)}/\sqrt[n]{\alpha}]$ $1-\alpha$ 信区间

一些情况下的区间估计

  1. 单个正态总体参数的置信区间

    • $\sigma$ 知时$\mu$ 置信区间:$[\bar{x}-u_{1-\alpha/2}\sigma/\sqrt{n},\quad\bar{x}+u_{1-\alpha/2}\sigma/\sqrt{n}]$
    • $\sigma$ 知时$\mu$ 置信区间:$[\bar{x}-t_{1-\alpha/2}(n-1)s/\sqrt{n},\quad\bar{x}+t_{1-\alpha/2}(n-1)s/\sqrt{n}]$
    • $\sigma^2$ 置信区间($\mu$ 知):$[(n-1)s^2/\chi^2_{1-\alpha/2}(n-1),\quad(n-1)s^2/\chi^2_{\alpha/2}(n-1)]$
  2. 大样本置信区间:$[\bar{x}-u_{1-\alpha/2}\sqrt{\frac{\bar{x}(1-\bar{x})}{n}},\quad \bar{x}+u_{1-\alpha/2}\sqrt{\frac{\bar{x}(1-\bar{x})}{n}}]$

  3. 两个正态总体下的置信区间

    • $\mu_1-\mu_2$ 置信区间

      • $\sigma^2_1$ $\sigma^2_2$ 知时:$[\bar{x}-\bar{y}-u_{1-\alpha/2}\sqrt{\frac{\sigma^2_1}{m}+\frac{\sigma^2_2}{n}},\quad \bar{x}-\bar{y}+u_{1-\alpha/2}\sqrt{\frac{\sigma^2_1}{m}+\frac{\sigma^2_2}{n}}]$
      • $\sigma^2_1=\sigma^2_2=\sigma^2$ 知时:$[\bar{x}-\bar{y}-\sqrt{\frac{m+n}{mn}}s_wt_{1-\alpha/2}(m+n-2),\quad \bar{x}-\bar{y}+\sqrt{\frac{m+n}{mn}}s_wt_{1-\alpha/2}(m+n-2)]$
      • $\sigma^2_2/\sigma^2_1=c$ 知时:$[\bar{x}-\bar{y}-\sqrt{\frac{mc+n}{mn}}s_wt_{1-\alpha/2}(m+n-2),\quad \bar{x}-\bar{y}+\sqrt{\frac{mc+n}{mn}}s_wt_{1-\alpha/2}(m+n-2)]$
      • 当m和n都很大时的近似置信区间:$[\bar{x}-\bar{y}-u_{1-\alpha/2}\sqrt{\frac{s^2_x}{m}+\frac{s^2_y}{n}},\quad \bar{x}-\bar{y}+u_{1-\alpha/2}\sqrt{\frac{s^2_x}{m}+\frac{s^2_y}{n}}]$
      • 一般情况下的近似置信区间:$[\bar{x}-\bar{y}-s_0t_{1-\alpha/2}(l),\quad \bar{x}-\bar{y}+s_0t_{1-\alpha/2}(l)]$
    • $\sigma^2_1/\sigma^2_2$ 置信区间:$[\frac{s_x^2}{s_y^2}\cdot\frac{1}{F_{1-\alpha/2(m-1,n-1)}},\quad \frac{s_x^2}{s_y^2}\cdot\frac{1}{F_{\alpha/2(m-1,n-1)}}]$

最大似然估计

Maximum Likelihood Estimation

最大似然估计原理:利用已知的样本,找出最有可能生成该样本的参数。

基本假设

  • 参数$\theta$ 确定(非随机) 的而未知的量
  • 按类别把样本集分开, $R_j$ 中的每个样本都是独立地从概率密度为$p(x|w_j)$ 总体中独立地抽取出来的 – 独立同分布
  • 类条件概率密度$p(x|w_j)$ 已知分布, 参数向量未知
  • 假设$R_j$ 不包含关于$\theta_j(j\neq i)$ 信息, 即不同类别的参数在函数上是独立的

似然函数

  似然性(likelihood)与概率(possibility)同样可以表示事件发生的可能性大小,但是二者有着很大的区别:

  • 概率$p(x\mid\theta)$ 是在已知参数$\theta$ 的情况下,发生观测结果$x$ 可能性大小;
  • 似然性$L(\theta\mid x) $ 则是从观测结果$x$ 出发,分布函数的参数为$\theta$ 的可能性大小;

  可能听着不是那么好理解。我们再详细说明下,似然函数如下:
$$
L(\theta\mid x)=p(x\mid\theta)
$$
其中$x$ 知,$\theta$ 未知。若对于两个参数 $\theta_1$ $\theta_2$ ,有
$$
L(\theta_1\mid x)=p(x\mid\theta_1) > p(x\mid\theta_2)=L(\theta_2\mid x)
$$
那么意味着 [公式] 时,随机变量 [公式] 生成 [公式] 的概率大于当参数 [公式] 时。这也正是似然的意义所在,若观测数据为 [公式] ,那么 [公式] 是比 [公式] 更有可能为分布函数的参数。

  在不同的时候, [公式] 可以表示概率也可以用于计算似然,这里给出个人的理解,整理如下:

  • [公式] 已知,[公式] 为变量的情况下,[公式] 为概率,表示通过已知的分布函数与参数,随机生成出 [公式] 的概率;
  • [公式] 为变量,[公式] 已知的情况下,[公式] 为似然函数,它表示对于不同的 [公式] ,出现 [公式] 的概率是多少。此时可写成 $L(\theta\mid x)=p(x\mid\theta)$,更严格地,我们也可写成 [公式]

最大似然估计

  搞清楚了似然函数,就可以进阶到最大似然估计了。

  最大似然估计的思想在于,对于给定的观测数据 $x$,我们希望能从所有的参数 $\theta_1, \theta_2, \cdots, \theta_n $ 中找出能最大概率生成观测数据的参数 [公式] 作为估计结果。

  回到前面所说的似然函数,被估计出的参数 [公式] 应该满足:

[公式]

那么在实际运算中,我们将待估计的参数 [公式] 看成是变量,计算得到生成观测数据 [公式] 的概率函数 [公式] ,并找到能最大化概率函数的参数即可:

[公式]

而这最大化的步骤通过求导等于0来解得。

  给出维基百科的例子来加深理解:

img

离散型随机变量的最大似然估计

  离散型随机变量 [公式] 的分布律为 [公式] ,设 [公式] 为来自 [公式] 的样本,[公式] 为相应的观察值,[公式] 为待估参数。

  在参数 [公式] 下,分布函数随机取到[公式] 的概率为

[公式]

构造似然函数:

image-20211218160315830

可知似然函数是一个关于 [公式] 的函数,要找到最大概率生成 [公式] 的参数,即找到当 [公式] 取最大值时的 [公式]

  求解出最大值,通常的方法就是求导=0:

[公式]

由于式子通常是累乘的形式,我们借助对数函数来简化问题:

[公式]

上式也通常被称作对数似然方程。如果 [公式] 包含多个参数 $\theta_1, \theta_2, \cdots, \theta_k$,可对多个参数分别求偏导来连立方程组。下面举一个例子:

img

连续型随机变量的最大似然估计

  连续型随机变量 [公式] 的概率密度为 [公式] ,设 [公式] 为来自 [公式] 的样本,[公式]为相应的观察值,同样地,[公式] 为待估参数。

  概率密度的图像与横轴所围成的面积大小代表了概率的大小,当随机变量$X$ 到了某一个值 $x_1$,可看做是选取到了 [公式][公式] 所围成的小矩形。如图所示:

img

接着与离散型随机变量类似,随机取到观察值 [公式] 的概率为:

[公式]

构造似然函数:

[公式]

由于image-20211218160651232不随参数变化,故我们选择忽略,似然函数变为:

[公式]

接着计算步骤和离散型类似,取对数求导等于0。例如:

img

Reference

贝叶斯估计

Bayesian Estimation

贝叶斯估计实质: 贝叶斯决策来决策参数的取值。与最大似然估计同为概率密度估计中的主要参数估计方法,结果多数情况下与最大似然估计相同

区别:

  • 最大似然估计把待估计的参数当作未知但固定的量
  • 贝叶斯估计把待估计的参数也看为随机变量

$R(\hat{\theta}|x )$ 给定$x$ 件下估计量$\hat{\theta}$ 期望损失,称为条件风险。 如果$\theta$ 估计量$\hat{\theta}$ 得条件风险最小,则称$\hat{\theta}$ ${\theta}$ 贝叶斯估计量