Effectiveness of self-supervised pre-training for speech recognition
1.论文摘要
使用原始语音波形数据vq量化后得到词典,不接具体的下游任务,用ctcloss直接在预训练的bert模型上fine tune 转写的语音任务。效果:在bert上finetune 10小时的labeled Librispeec 数据就已经和现有最好的模型在100小时训练数据的结果相当,并在test-other 数据上减少了25%的wer.
2.模型架构
vq-wav2vec 原始波形数据,经过一个卷积encoder
f
:
X
−
>
Z
f:X->Z
f:X−>Z 和 decoder 后
g
:
Z
^
−
>
C
g:\hat{Z}->C
g:Z^−>C,相比于wav2vec, 这里在两者之间增加了一个量化模块
q
:
Z
−
>
Z
^
q:Z->\hat{Z}
q:Z−>Z^,来构建离散的表示,也就是聚合层g的输入。原始z被从码本中选中的
e
i
e_i
ei代替。离散bert 采用vq的离散量化表示,作为对比选用MFCC/filterbank特征用k-means去逼近每个时间步的表示。只使用masked language model task, 用ce loss 来训练模型预测真实token。连续bert 输入为wav2vec 稠密特征,MFCC, FBANK, 这里将一些输入用masked embedding表示去代替然后送到 transformer的encoder中,将masked input 的输出和真实的输入以及一些从其他masked inputs 采样的负例(同batch)做点乘,通过优化infoNCE来训练 finetune 过程 在预训练模型最后加一个全连接来做一个ASR任务,最小化CTCloss。 mask 方法: 先选出大量的起始点,然后每个起始点有3.75%d的概率被选中, 每20个时间步用masked embedding来代替。channel也做masking.