通俗的理解,极大似然原理含义就是,世界上之所以会发生某些事件,是因为它发生的概率大。 例如有一个博客的例子是:假设引起 X X X现象和 Y Y Y现象的原因有 A A A和 B B B两种。假设:
在 A A A原因情况下, X X X现象发生的概率远大于 Y Y Y现象发生的概率。在 B B B原因情况下, Y Y Y现象发生的概率远大于 X X X发生的概率。那么,假设现在观察到 X X X现象,即事件已经是确定的了。此时,原因是 A A A还是 B B B呢?答:实际上 A A A和 B B B的可能性都存在。但是如果必须要选择一个原因的话,那么可能选择 A A A更为稳妥,这种思考方式就是“极大似然原理”。
极大似然估计和关于极大似然估计性质的阐述是费希尔的研究成果。费希尔的思想通过下面的例子说明:如果随机选取离散随机变量 Y Y Y的 n n n个观测值 y 1 , y 2 , . . . , y n y_1,y_2,...,y_n y1,y2,...,yn,如果概率分布 p ( y ) p(y) p(y)是单个参数 θ θ θ的函数,那么观测到的 Y Y Y的这 n n n个独立值的概率是: p ( y 1 , y 2 , . . . , y n ) = p ( y 1 ) p ( y 1 ) ⋯ ( y n ) p(y_1,y_2,...,y_n)=p(y_1)p(y_1) {\cdots} (y_n) p(y1,y2,...,yn)=p(y1)p(y1)⋯(yn) 费希尔称样本值 y 1 , y 2 , . . . , y n y_1,y_2,...,y_n y1,y2,...,yn的联合概率为 样 本 的 似 然 函 数 L \color{red}样本的似然函数L 样本的似然函数L。同时,建议应该选择使 L L L达到最大的值作为总体参数 θ θ θ的估计值。
相关定理:
设 y 1 , y 2 , . . . , y n y_1,y_2,...,y_n y1,y2,...,yn表示随机变量 Y Y Y的 n n n个观测值的样本,当 Y Y Y是概率分布为 p ( y ) p(y) p(y)的 离 散 随 机 变 量 \color{red}离散随机变量 离散随机变量时,似然函数 L = p ( y 1 ) p ( y 1 ) ⋯ ( y n ) L=p(y_1)p(y_1) {\cdots} (y_n) L=p(y1)p(y1)⋯(yn).设 y 1 , y 2 , . . . , y n y_1,y_2,...,y_n y1,y2,...,yn表示随机变量 Y Y Y的 n n n个观测值的样本,当 Y Y Y是密度函数为 f ( y ) f(y) f(y)的 连 续 随 机 变 量 \color{red}连续随机变量 连续随机变量时,似然函数 L = f ( y 1 ) f ( y 1 ) ⋯ ( f n ) L=f(y_1)f(y_1) {\cdots} (f_n) L=f(y1)f(y1)⋯(fn).极大似然估计,就是需要在参数空间 θ ^ = ( θ 1 ^ , θ 2 ^ , ⋯ , θ n ^ ) \hat{θ}=( \hat{θ_1},\hat{θ_2}, {\cdots},\hat{θ_n}) θ^=(θ1^,θ2^,⋯,θn^)中选定一个值,使得“已发生”的事件出现的概率最大。 那为什么似然函数要取最大值?是因为我们在试验中抽取的样本已经确定了,是发生了的,要使得似然函数尽可能地趋向于1。
【结合一个例子】设 y 1 , y 2 , . . . , y n y_1,y_2,...,y_n y1,y2,...,yn表示随机变量 Y Y Y的 n n n个观测值的随机样本,具有指数密度函数: f ( y ) = { e − y / β β , 若 0 ≤ y ≤ ∞ 0 , 其他 f(y) = \begin{cases} \frac{e^{-y /\beta}}{\beta}, & \text{若$0 \leq y \leq \infty$} \\ 0, & \text{其他} \end{cases} f(y)={βe−y/β,0,若0≤y≤∞其他求 β \beta β的极大似然估计。 【步骤主要有】
构造极大似然函数 L L L;求使 L L L最大的 β ^ \hat{\beta} β^:由微分学知道,使L达到最大的 β ^ \hat{\beta} β^值是使 d L / d θ = 0 dL/dθ=0 dL/dθ=0的值。L是一些含有 β \beta β的乘积,因为求一个和的导数要比求一个积的导数容易,所以会到 L L L取对数, L L L的对数是 L L L的单调增函数。 下面直接给出过程。