[机器学习] 小傻学HMM：嚼烂HMM

tech2025-07-08 33

[机器学习] 小傻学HMM：嚼烂HMM

1 基本概念介绍1.1 HMM1.1.1 参数定义1.2 二个假设1.3 三种问题 2 公式推导2.1 question1：Evaluation2.1.1前向算法2.1.2 计算过程： 2.2 后向算法计算过程： Learning 问题Decoding 问题 References

1 基本概念介绍

1.1 HMM

两种算法模型：

生成式P(x, Y)

与nlg的生成概念不同 Y可能是隐变量y=(smeo)，可能是回归值，可能是类别. 优势：能力强大；缺陷：成本高 x->y, y->x, x,y 可以用来采样朴素贝叶斯、混合高斯模型GMM、隐马尔科夫模型(HMM)、贝叶斯网络 Sigmoid Belief Networks 、深度信念网络（DBN）

判别式P(Y|X) 优势：目标导向，成本低；缺陷：只能解决单一问题 x->y 线性回归/逻辑回归（Logistic Regression）、K近邻（KNN）、感知机、神经网络（NN）、支持向量机（SVM）、决策树、最大熵模型（maximum entropy model, MaxEnt）、高斯过程（Gaussian Process）、条件随机场（CRF）、boosting方法

马尔可夫链（Markov link）：一种特殊的随机过程，其随机性只与当前状态有关，与过往已发生的状态和将来可能发生的状态都无关隐马尔可夫链（hidden Markov method）：用来描述一个变化状态是隐藏的，且是离散的马尔可夫过程（特殊随机过程）。隐马尔可夫模型（Hidden Markov Model，HMM）: 统计模型，描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析，例如模式识别。

统计模型：是一组数学模型，它包含了一组关于样本数据的假设。统计模型通常以相当理想化的形式表示数据生成过程。马尔可夫过程（Markov Process）：一类随机过程。马尔可夫过程是研究离散事件动态系统状态空间的重要方法，它的数学基础是随机过程理论。

1.1.1 参数定义

隐状态序列：

S = s_1s_2...s_n

(S: state, 不能观测到的状态)观测序列：

O = o_1o_2...o_n

(O: objective, 我们所观测到的状态)隐状态集合：

H ={ h_1, h_2, ..., h_n}

(H: hidden, 就是一系列的隐状态所组成的集合，

s_i

属于H)观测值集合：

R ={ r_1, r_2, ..., r_n}

(R: Reality，已成事实，观测到啥样就是啥样；一系列的观测状态所组成的集合，

o_i

属于R)参数

\lambda = (\pi, A, B)

\pi

: 初始状态概率分布，即第一个隐状态

s_1

为各状态

H=\{h_1,h_2,...h_N\}

的概率分别是多少。

A中的元素a_{ij}

: 当前时间点它的状态是

h_i

，下一个时间点变成

h_j

的概率，因为

H

有

N

个元素，所以它是个

N\times N

方阵，每一个时间点的转移矩阵都是相同的，此为时间无关性。

B中元素b_{ik}=P(o_t=r_k|s_t=h_i)=b_{s_t \to o_t}

: 一个

N\times M

矩阵，隐状态

h_i

到观测值

r_k

的概率，也是与时间先后无关的。

一个例子

假设我手里有三个不同的骰子。第一个骰子6个面（称这个骰子为D6），每个面（1，2，3，4，5，6）出现的概率是1/6。第二个骰子是个四面体（称这个骰子为D4），每个面（1，2，3，4）出现的概率是1/4。第三个骰子有八个面（称这个骰子为D8），每个面（1，2，3，4，5，6，7，8）出现的概率是1/8。

我们开始掷骰子： 1.）我们先从三个骰子里挑一个，挑到每一个骰子的概率都是1/3。 2.）然后我们掷骰子，得到一个数字，1，2，3，4，5，6，7，8中的一个。不停的重复上述过程，我们会得到一串数字，每个数字都是1，2，3，4，5，6，7，8中的一个。

最后得到这么一串可见的数字称之为可见状态链（掷骰子10次）：1 6 3 5 2 7 3 5 2 4 还有一个隐含状态链，是你用的哪种骰子的序列D6 D8 D8 D6 D4 D8 D6 D6 D4 D8

1.2 二个假设

齐次markov性假设（当前状态至于其前一个状态有关，与观测序列无关）：

P(s_{t+1}|s_1s_2...s_t;o_1o_2...o_t)=P(s_{t+1}|s_t)

观测独立性假设（观测值至于其隐状态有关，与其他状态无关）：

P(o_t|s_1s_2...s_t;o_1o_2...o_{t-1})=P(o_t|s_t)

假设式为了增加模型泛化能力的先验，也是为了方便求解做出的妥协。

1.3 三种问题

Evaluation概率计算，正向、反向算法给定𝜆，求𝑝(𝑂|𝜆) Learning学习，EM算法已知一个观测序列O，用MLE找出使O概率最大的𝜆 𝜆_𝑀𝐿𝐸=𝑎𝑟𝑔𝑚𝑎𝑥 𝑝(𝑂|𝜆) Decoding解码，viterbi算法已知观测序列和参数lambda，求解概率最大的隐藏状态序列 𝐻=𝑎𝑟𝑔𝑚𝑎𝑥 𝑝(𝐻|𝑂,𝜆)

Evaluation, Given

\lambda

, 求

P(O|\lambda)

, 已知参数

\lambda

，评估一个已经发生的观测序列

O

的概率，用以判断我们的模型参数是不是准（知道骰子有几种（隐含状态数量），每种骰子是什么（转换概率），根据掷骰子掷出的结果（可见状态链），我想知道掷出这个结果的概率）Learning,

\lambda

\lambda_{MLE} = arg maxP(O|\lambda)

已知一个观测序列事实

O

，找出一组参数

\lambda

使得其概率最大, 用

E M

算法（知道骰子有几种（隐含状态数量），每种骰子是什么（转换概率），根据掷骰子掷出的结果（可见状态链），我想知道每次掷出来的都是哪种骰子（隐含状态链））Decoding,

\hat{H}= arg maxP(H|O;\lambda)

, 已知观察序列和参数，求（反编）哪一串隐序列使得这个事实发生的概率最大，Viterbi算法（动态规划）穷举法（舍弃）（知道骰子有几种（隐含状态数量），不知道每种骰子是什么（转换概率），观测到很多次掷骰子的结果（可见状态链），我想反推出每种骰子是什么（转换概率）。）

2 公式推导

（参考别人，自己进行细化，个别地方进行解释说明）

2.1 question1：Evaluation

针对上述第一个问题，进行公式求解。给定 $\lambda=(\pi,A,B)$ 　求 $P(O|\lambda)$

$P(O|\lambda) = \sum_{S}^H P(O,S|\lambda) =\sum_{S}^H P(O|S;\lambda)P(S|\lambda) \tag{1}$ 将 $S = s_1s_2...s_n$ ，将其带入公式： $P(S|\lambda)=P(s_1s_2...s_T|\lambda)=\color{green}P(s_T|s_1s_2...s_{T-1};\lambda)\color{red}P(s_1s_2...s_{T-1};\lambda)$ 计算至T-1，进行迭代： $P(s_1s_2...s_{T-1};\lambda)=\color{green}P(s_{T-1}|s_1s_2...s_{T-2};\lambda)\color{red}P(s_1s_2...s_{T-2};\lambda)$ $P(s_1s_2...s_{T-2};\lambda)=\color{green}P(s_{T-2}|s_1s_2...s_{T-3};\lambda)\color{red}P(s_1s_2...s_{T-3};\lambda)$ $. . .$ $P(s_2;\lambda)=\color{green}P(s_2|s_1;\lambda)\color{red}P(s_1;\lambda)$ 又由齐次markov性假设（当前状态至于其前一个状态有关，与观测序列无关）： $P(s_{t+1}|s_1s_2...s_t;o_1o_2...o_t)=P(s_{t+1}|s_t)$ ，故上式将后式逐渐向前式中进行带入，有

$P(S|\lambda)=P(s_1s_2...s_T|\lambda)=\color{green}P(s_T|s_1s_2...s_{T-1};\lambda) P(s_{T-1}|s_1s_2...s_{T-2};\lambda) P(s_{T-2}|s_1s_2...s_{T-3};\lambda)... \color{red}P(s_2|s_1;\lambda)\\ \color{black}= P(s_T|s_{T-1};\lambda) P(s_{T-1}|s_{T-2};\lambda) P(s_{T-2}|s_{T-3};\lambda)... \color{red}P(s_2|s_1;\lambda)\\ \color{block}=\prod_{t=2}^{T} p(s_t|s_{t-1}, \lambda)\color{red}P(s_2|s_1;\lambda);\; s_t \in H$

$=\prod_{t=2}^{T} p(s_t|s_{t-1}, \lambda)\color{red}P(s_1;\lambda) =\pi(s_1)\prod_{t=2}^{T} a_{s_{t-1}s_{t}}, \;\; s_t \in H \tag{2}$ 根据定义， $P(O|S;\lambda)$ 为给定参数 $\lambda$ ，隐藏状态S时观测变量值，可直接得到： $P(O|S;\lambda)=\prod_{t=1}^T b_{s_t \to o_t}, \; \; s_t \in H , o_t \in R \tag{3}$

所以 $P(O|\lambda)=\underbrace{\sum_{s_1}^H\sum_{s_2}^H...\sum_{s_T}^H}_{\text{O=N的T次方}} \pi(s_1) \prod_{t=1}^{T－1} a_{s_ts_{t+1}}\prod_{t=1}^T b_{s_t \to o_t} \tag{4}\\ o(TN^T)$

2.1.1前向算法

前向概率: 给定隐马尔可夫模型 $\lambda$ ，定义到t时刻部分观测序列为 $0_1, o_2, ..., o_t$ ，且状态为 $q_i$ 的概率为前向概率，记为 $\alpha_{t}(i)=P(o_1...o_t,s_t=h_i|\lambda) \tag{5}$ 则可递推求得前向概率 $\alpha_{t}(i)$ 及观测序列概率 $P(O|\lambda)$ 。即给定了模型参数，给定时刻t的状态，此为概率进行计算。 $\tag{6} \alpha_{1}(i)=P(o_1,s_1=h_i|\lambda)=P(o_1|s_1=h_i)P(s_1=h_i)\\ =b_{h_i\to o_1}\pi(s_1=h_i) \\ \alpha_{T}(i)=P(O,s_T=h_i|\lambda)$

$\tag{7} P(O|\lambda) = \sum_{i=1}^N P(O,S_T=h_i|\lambda)\\ =\sum_{i=1}^N \alpha_{T}(i)$ 展开 $\tag{8} \alpha_{t+1}(j)=P(o_1...o_to_{t+1},s_{t+1}=h_j|\lambda) \\ =\sum_{i=1}^N P(o_1...o_to_{t+1},s_t=h_i s_{t+1}=h_j|\lambda) \\ =\sum_{i=1}^N P(o_{t+1}|o_1...o_t,s_t=h_i s_{t+1}=h_j;\lambda) P(o_1...o_t,s_t=h_i s_{t+1}=h_j;\lambda) \\ =\sum_{i=1}^N P(o_{t+1}|s_{t+1}=h_j) P(o_1...o_t,s_t=h_i s_{t+1}=h_j;\lambda) \\ =\sum_{i=1}^N P(o_{t+1}|s_{t+1}=h_j) P(s_{t+1}=h_j|s_t=h_i;\lambda) P(o_1...o_t,s_t=h_i;\lambda) \\ =\sum_{i=1}^N b_{h_j \to o_{t+1}} a_{ij} \alpha_{t}(i)$

2.1.2 计算过程：

step1: 计算

\alpha_{1}(i) \; \; from \;\; i=1 \to N

依据公式

(6)

step2: 计算

\alpha_{2}(j) \; \; from \;\; j=1 \to N

依据step1 和公式

(8)

…依据上一步和公式

(8)

stepT: 计算

\alpha_{T}(k) \; \; from \;\; k=1 \to N

依据上一步和公式

(8)

finally 依公式

(7)

得

P(O∣\lambda)

2.2 后向算法

给定 $\lambda=(\pi,A,B)$ 　求 $P(O|\lambda)$

若记 $\tag{9} \beta_{t}(i) = P(o_{t+1}...o_T|s_t=h_i;\lambda)$ 则有 $\tag{10} \beta_{1}(i) = P(o_2...o_T|s_1=h_i;\lambda)$ 同时 $\tag{11} \beta_{T-1}(i)=P(o_T|s_{T-1}=h_i;\lambda) \\ =\sum_{j=1}^N P(o_T,s_T=h_j|s_{T-1}=h_i;\lambda) \\ =\sum_{j=1}^N P(o_T|s_T=h_j,s_{T-1}=h_i;\lambda) P(s_T=h_j|s_{T-1}=h_i;\lambda) \\ =\sum_{j=1}^N P(o_T|s_T=h_j,s_{T-1}=h_i;\lambda) a_{ij} \\ =\sum_{j=1}^N b_{j\to o_T} a_{ij}$ 现在我们列出递推式 $\beta_t$ 与 $\beta_{t+1}$ 的关系 $\tag{12} \beta_{t}(i)=P(o_{t+1}...o_T|s_t=h_i;\lambda) \\ =\sum_{j=1}^N P(o_{t+1}...o_T,s_{t+1}=h_j|s_t=h_i;\lambda) \\ =\sum_{j=1}^N P(o_{t+1}|o_{t+2}...o_T,s_{t+1}=h_j,s_t=h_i;\lambda) P(o_{t+2}...o_T,s_{t+1}=h_j|s_t=h_i;\lambda) \\ =\sum_{j=1}^N b_{j \to o_{t+1}} P(o_{t+2}...o_T|s_{t+1}=h_j,s_t=h_i) P(s_{t+1}=h_j|s_t=h_i) \\ 这一步两个状态作为条件不能直接把s_{t}去掉。\\但考虑到a->b->c，知道了b就中断了a与c的联系，ac相当于互相独立了。则可以去掉s_t\\ =\sum_{j=1}^N b_{j \to o_{t+1}} \beta_{t+1}(j) a_{ij}$ 而所求为 $\tag{13} P(O|\lambda)=P(o_1...o_T|\lambda) \\ =\sum_{i=1}^N P(o_1...o_T,s_1=h_i;\lambda) \\ =\sum_{i=1}^N P(o_1...o_T|s_1=h_i;\lambda)P(s_1=h_i) \\ =\sum_{i=1}^N P(o_1...o_T|s_1=h_i;\lambda)\pi(s_1) \\ =\sum_{i=1}^N P(o_1|o_2...o_T,s_1=h_i;\lambda)P(o_2...o_T,s_1=h_i;\lambda)\pi(s_1) \\ =\sum_{i=1}^N P(o_1 | s_1=h_i)\beta_1(i) \pi(s_1=h_i) \\ =\sum_{i=1}^N b_{s_1=h_i \to o_1} \beta_1(i)\pi(s_1=h_i)$

计算过程：

step1: 计算

\beta_{T-1}(i) \; \; from \;\; i=1 \to N

依据公式

(11)

step2: 计算

\beta_{T-2}(j) \; \; from \;\; j=1 \to N

依据step1 和公式

(12)

…依据上一步和公式

(12)

stepT-1: 计算

\beta_{1}(k) \; \; from \;\; k=1 \to N

依据上一步和公式

(12)

finally 依公式

(13)

得

P(O∣\lambda)

Learning 问题

EM算法 $\tag{14} \theta^{t+1}=\underset{\theta}{\operatorname{argmax}} \int_{z} log P(X,Z|\theta) P(Z|X,\theta^t)dz$ 对应到HMM的参数 $\lambda=(\pi, A, B)$ $\tag{15} \lambda^{t+1}=\underset{\lambda}{\operatorname{argmax}} \sum_{S} log P(O,S|\lambda) P(S|O,\lambda^t)$ 又因为 $P(S|O,\lambda^t)=\frac{P(S,O|\lambda^t)}{P(O,\lambda^t)}$ 中分母 $P(O,\lambda^t)$ 是个定值，对 $(15)$ 不影响，所以目标可变为 $\tag{16} \lambda^{t+1}=\underset{\lambda}{\operatorname{argmax}} \sum_{S} log P(O,S|\lambda) P(S,O|\lambda^t)$ 所以我们可以定义目标函数为： $\tag{17} f(\lambda, \lambda^t)=\sum_{S} \log P(O,S|\lambda) P(S,O|\lambda^t) \\ 代入(4)式 P(O,S|\lambda)=\pi(s_1) \prod_{t=1}^{T－1} a_{s_ts_{t+1}}\prod_{t=1}^T b_{s_t \to o_t} \\ =\sum_{S} [(log \pi(s_1) + \bcancel{\sum_{t=1}^{T－1} log a_{s_ts_{t+1}}}+ \bcancel{\sum_{t=1}^T log b_{s_t \to o_t}})P(S,O|\lambda^t)]$ 为了简便计算，我们先只考虑 $\pi(s_1)$ , 公式 $(17)$ 可进一步简化为： $\sum_{S} [log \pi(s_1)P(S,O|\lambda^t)] \\ =\sum_{s_1}...\sum_{s_T} [log \pi(s_1)P(O,s_1...s_T|\lambda^t)] \\ s_2...s_T与\pi没关系，所以\sum_{s_{2...N}}相当于求P(O,S)的边缘概率：P(O,s_1)=\sum_{s_{2...N}}P(O,s_1...s_N)\\ 故=\sum_{s_1} [log \pi(s_1)P(O,s_1|\lambda^t)] \\ =\sum_{h_i,i=1}^N [log \pi(s_1=h_i)P(O,s_1=h_i|\lambda^t)]$ 问题转化为约束条件下的极值问题： $\begin{cases} \sum_{i=1}^N [log \pi(s_1=h_i)P(O,s_1=h_i|\lambda^t)] \\ s.t \;\; \sum_{i=1}^N \pi(s_1=h_i)=1 \end{cases}$ 利用Lagrange乘子法 $\tag{19} L(\pi, \eta)=\sum_{i=1}^N [log \pi(s_1=h_i)P(O,s_1=h_i|\lambda^t)] + \eta(\sum_{i=1}^N \pi(s_1=h_i)-1)$

$\tag{20} \frac{\partial L}{\partial \pi_i}=\frac{1}{\pi_i}P(O,s_1=h_i|\lambda^t) + \eta =0$

两边乘以 $\pi_i$ 再把所有 $\pi_i$ 进行求和得： $\sum_{i=1}^N P(O,s_1=h_i|\lambda^t) + \eta =0 \eta = -\sum_{i=1}^N P(O,s_1=h_i|\lambda^t)$ 代入(20)得 $\pi_i =\frac{P(O,s_1=h_i|\lambda^t)}{\sum_{i=1}^N P(O,s_1=h_i|\lambda^t)}$ 最终得 $\pi_i^{t+1} =\frac{P(O,s_1=h_i|\lambda^t)}{P(O|\lambda^t)}$ PS：这里如果真实求值，则依然使用前向后向算法，只是把第一个隐藏状态做了限制。

$\sum_I(\sum_{t=1}^{T-1}\log a_{i_ti_{t+1}})p(O,I|\lambda^-)=\sum_{i=1}^N\sum_{j=1}^N\sum_{t=1}^{T-1}a_{ij}p(O,i_t=i,i_{t+1}=j|\lambda^-)\\ \sum_{j=1}^N a_{ij}=1\\ a_{ij}=\frac {\sum_{t=1}^{T-1}p(O,i_t=i,i_{t+1}=j|\lambda^-)}{\sum_{t=1}^{T-1}p(O,i_t=i|\lambda^-)}$

$b_j(k)=\frac {\sum_{t=1}^{T}p(O,i_t=j|\lambda^-)I(o_t=v_k)}{\sum_{t=1}^{T}p(O,i_t=i|\lambda^-)}$

发射概率b，每个隐藏状态对应K个值，对b_k求导时，只有o_t=v_k时才不等于0。

hmm的em算法是无监督的，如果有标注，那么直接使用统计即可得出参数

Decoding 问题

Viterbi算法

类似动态规划思想，求出每个子序列的最大值进而逐步得到整个序列发生的最大值。它相比穷举法对时间复杂度有很大的改进。

对于一个已经发生的观察序列 $O=o_1o_2...o_T$ , 要找到某一隐序列 $s_1s_2...s_T, s_i \in H$ 使发生的概率最大

穷举法，每一个

s_i

都可以有

N

种可能，共有

N^T

种序列，根据参数，算出每一种序列的发观事实的概率，取最大的。Viterbi 算法，

o_1

找出最大概率对应的

s_1

,固定！

s_1 \to s_2=h_i \to o_2

选一条最大的固定,

s_1s_2\to s_3=h_i \to o_3

选一条最大的，这样就有

T * N

的计算复杂度。

$\tag{21} P(S|O,\lambda) \\ S=s_1s_2s_3...s_T \\ O=o_1o_2o_3...o_T$ 首先定义 $\delta_{t} (i) = \underset{s_1s_2...s_{t}}{\operatorname{max}} P(s_t=h_i,...s_2s_1,o_1o_2...o_t|\lambda)$ 表示 $t$ 时刻，隐状态 $s_t=h_i$ ，为最符合已发生事实的概率标记,

则有 $\delta_{t+1} (i) =\max_{s_1...s_{t+1}}p(s_{t+1}=h_i,s_1...s_t,o_1..o_{t+1})\\ =\max_{s_1...s_{t+1}}p(o_{t+1}|s_1...s_{t+1},o_1..o_t)p(s_1...s_{t+1},o_1..o_t)\\ =\max_{s_1...s_{t+1}}p(o_{t+1}|s_{t+1})p(s_{t+1}|s_t,s_1..s_{t-1},o_1..o_t)p(s_1...s_t,o_1..o_t)\\ =\max_{s_1...s_{t+1}}p(o_{t+1}|s_{t+1})p(s_{t+1}|s_t)p(s_1...s_t,o_1..o_t)\\ =\max_{j=1}^N \theta_t(j)a_{ji}b_{s_io_{t+1}}$

$\delta_{1}(i)={\max_{s_1}}P(s_1=h_i,o_1)$ 令 $\varphi(t)=\arg \max_{1<=i<=N} \delta_t (i)=i$ 所以有 $\varphi(1)\varphi(2)...\varphi(T) = index(S) = \underset{index(S)}{\operatorname{max}}P(S|O,\lambda)$

计算步骤由 $1, 2, . . . T$ 即解码的隐状态序列，这种方法也叫Viterbi算法

References

统计学习方法(李航)如何用简单易懂的例子解释隐马尔可夫模型？

最新回复(0)