自然语言处理综论-第7章小结-HMM与语音识别
本章在第4章和第6章的基础上,介绍了大词汇量连续语音识别(Large Vocabulary Continuous Speech Recognition)和文本-语音合成(Text-To-Speech synthesis)的基本算法。
语音识别系统的输入是一系列声波。波形、频谱和声谱等可视化工具用于理解信号中的信息。在语音识别的第一步,声波被抽样和量化,并转化为某种声谱的表示;常见的声谱表示是LPC声谱特征,它对输入中的每个时间片段提供一个特征矢量。这些特征矢量被用来估计语音的似然度(又称为观察似然度),估计的方法有高斯估计混合或神经网络法。解码或搜索是用于发现与输入观察序列相匹配的最佳序列的过程。在这个过程中使用解码或搜索这两个术语,这个事实表明,语音识别本质上就是一个交叉学科,它从一个以上的领域借用不同的比喻:解码来自信息论领域,搜索来自人工智能领域。我们介绍了两种解码算法:时间同步Viterbi解码算法(这种算法通常需要进行剪枝,又称为定向束搜索)和栈解码算法或
A
∗
A^*
A∗解码算法。这两种算法都以特征矢量的系列作为输入并采用两个辅助算法,一个算法用于指派似然度(例如,高斯算法或MLP算法),另一个算法用于指派先验概率(例如,N元语法模型)。两者的输出都是单词串。嵌入训练是训练语音识别系统的正规方法。给出一个带有手工建立的发音结构的初始词表,用这个词表来训练HMM的转移概率以及HMM的观察概率。这个HMM的观察概率估计可以通过高斯算法或MLP得到。建立TTS系统的声学部分的一个途径是使用毗连合成,在毗连合成中通过毗连方法合成语段,然后从一个记录单独说话人语音的大规模数据库中取出双音子,并对双音子进行平滑处理。