Effectiveness of self-supervised pre-training for speech recognition

tech2022-08-08  140

Effectiveness of self-supervised pre-training for speech recognition

1.论文摘要

使用原始语音波形数据vq量化后得到词典,不接具体的下游任务,用ctcloss直接在预训练的bert模型上fine tune 转写的语音任务。效果:在bert上finetune 10小时的labeled Librispeec 数据就已经和现有最好的模型在100小时训练数据的结果相当,并在test-other 数据上减少了25%的wer.

2.模型架构

vq-wav2vec 原始波形数据,经过一个卷积encoder f : X − > Z f:X->Z f:X>Z 和 decoder 后 g : Z ^ − > C g:\hat{Z}->C g:Z^>C,相比于wav2vec, 这里在两者之间增加了一个量化模块 q : Z − > Z ^ q:Z->\hat{Z} q:Z>Z^,来构建离散的表示,也就是聚合层g的输入。原始z被从码本中选中的 e i e_i ei代替。离散bert 采用vq的离散量化表示,作为对比选用MFCC/filterbank特征用k-means去逼近每个时间步的表示。只使用masked language model task, 用ce loss 来训练模型预测真实token。连续bert 输入为wav2vec 稠密特征,MFCC, FBANK, 这里将一些输入用masked embedding表示去代替然后送到 transformer的encoder中,将masked input 的输出和真实的输入以及一些从其他masked inputs 采样的负例(同batch)做点乘,通过优化infoNCE来训练 finetune 过程 在预训练模型最后加一个全连接来做一个ASR任务,最小化CTCloss。 mask 方法: 先选出大量的起始点,然后每个起始点有3.75%d的概率被选中, 每20个时间步用masked embedding来代替。channel也做masking.

最新回复(0)