Effectiveness of self-supervised pre-training for speech recognition

tech2022-08-08 205

Effectiveness of self-supervised pre-training for speech recognition

1.论文摘要

使用原始语音波形数据vq量化后得到词典，不接具体的下游任务，用ctcloss直接在预训练的bert模型上fine tune 转写的语音任务。效果：在bert上finetune 10小时的labeled Librispeec 数据就已经和现有最好的模型在100小时训练数据的结果相当，并在test-other 数据上减少了25%的wer.

2.模型架构

vq-wav2vec 原始波形数据，经过一个卷积encoder

f : X - > Z

和 decoder 后

g:\hat{Z}->C

，相比于wav2vec, 这里在两者之间增加了一个量化模块

q:Z->\hat{Z}

,来构建离散的表示，也就是聚合层g的输入。原始z被从码本中选中的

e_i

代替。离散bert 采用vq的离散量化表示，作为对比选用MFCC/filterbank特征用k-means去逼近每个时间步的表示。只使用masked language model task, 用ce loss 来训练模型预测真实token。连续bert 输入为wav2vec 稠密特征，MFCC, FBANK, 这里将一些输入用masked embedding表示去代替然后送到 transformer的encoder中，将masked input 的输出和真实的输入以及一些从其他masked inputs 采样的负例（同batch）做点乘，通过优化infoNCE来训练 finetune 过程在预训练模型最后加一个全连接来做一个ASR任务，最小化CTCloss。 mask 方法：先选出大量的起始点，然后每个起始点有3.75%d的概率被选中，每20个时间步用masked embedding来代替。channel也做masking.

最新回复(0)