自然语言处理综论-第7章小结-HMM与语音识别

tech2022-07-29 223

自然语言处理综论-第7章小结-HMM与语音识别

本章在第4章和第6章的基础上，介绍了大词汇量连续语音识别（Large Vocabulary Continuous Speech Recognition）和文本-语音合成（Text-To-Speech synthesis）的基本算法。

语音识别系统的输入是一系列声波。波形、频谱和声谱等可视化工具用于理解信号中的信息。在语音识别的第一步，声波被抽样和量化，并转化为某种声谱的表示；常见的声谱表示是LPC声谱特征，它对输入中的每个时间片段提供一个特征矢量。这些特征矢量被用来估计语音的似然度（又称为观察似然度），估计的方法有高斯估计混合或神经网络法。解码或搜索是用于发现与输入观察序列相匹配的最佳序列的过程。在这个过程中使用解码或搜索这两个术语，这个事实表明，语音识别本质上就是一个交叉学科，它从一个以上的领域借用不同的比喻：解码来自信息论领域，搜索来自人工智能领域。我们介绍了两种解码算法：时间同步Viterbi解码算法（这种算法通常需要进行剪枝，又称为定向束搜索）和栈解码算法或

A^*

解码算法。这两种算法都以特征矢量的系列作为输入并采用两个辅助算法，一个算法用于指派似然度（例如，高斯算法或MLP算法），另一个算法用于指派先验概率（例如，N元语法模型）。两者的输出都是单词串。嵌入训练是训练语音识别系统的正规方法。给出一个带有手工建立的发音结构的初始词表，用这个词表来训练HMM的转移概率以及HMM的观察概率。这个HMM的观察概率估计可以通过高斯算法或MLP得到。建立TTS系统的声学部分的一个途径是使用毗连合成，在毗连合成中通过毗连方法合成语段，然后从一个记录单独说话人语音的大规模数据库中取出双音子，并对双音子进行平滑处理。

最新回复(0)