前言

标题：Neural Speech Synthesis with Transformer Network
原文链接：Link
Github：NLP相关Paper笔记和代码复现
说明：阅读论文时进行相关思想、结构、优缺点，内容进行提炼和记录，论文和相关引用会标明出处，引用之处如有侵权，烦请告知删除。
转载请注明：DengBoCong

介绍

虽然像Tacotron2这样的TTS模型实现了最新的性能，但它们仍然存在两个问题：

在训练和推理过程中效率低下（巨慢）
难以使用当前的递归神经网络（RNN）对长期依赖性进行建模

本文受Transformer启发，使用多头自注意力机制取代Tacotron2中的RNN结构和原始注意力机制。借助多头自注意力机制，可以并行构造编码器和解码器中的隐藏状态，从而提高训练效率，同时，不同时间步的任意两个输入通过自注意力机制直接连接，有效解决了远程依赖问题。使用phoneme（音素）序列作为输入，Transformer TTS网络生成梅尔频谱图，然后通过WaveNet声码器以输出最终的音频结果。

phoneme音素：能区分意义的最小声音单位，比如dog和fog中，d和f只要改变一个就改变了意义。

Tacotron2模型结构
Transformer模型结构

模型结构

与基于RNN的模型相比，在神经TTS中使用Transformer具有两个优点：

因为可以并行提供解码器输入序列的帧，它可以通过取代循环连接来进行并行训练。
自注意力将整个序列的全局上下文注入到每个输入帧中，直接建立了长距离依赖关系

在本节中，将介绍Transformer TTS模型的体系结构，并分析每个部分的功能，整个模型结构图如下：
在这里插入图片描述

Text-to-Phoneme转换器：由于训练数据不足的情况下很难学习语言的所有规律性，并且某些例外情况很少出现，而无法通过神经网络学习。因此，作者建立了一个规则系统并将其实现为文本到音素的转换器，它可以覆盖绝大多数情况。
Scaled Positional编码：采用的位置编码是Transformer的正弦位置编码：
$$PE(pos,2i)=sin(\frac{pos}{10000^{\frac{2i}{d_{model}}}})$$ $$PE(pos,2i+1)=cos(\frac{pos}{10000^{\frac{2i}{d_{model}}}})$$
其中 $pos$ 是时间步长索引，$2i$ 和 $2i+1$ 是通道索引，$d_{model}$ 是每个帧的维数。不过有一点要注意的是，不像文本训练那样，source和target都是一个语言空间，embedding的编码是相似的。TTS中使用固定的位置嵌入可能会对编码器和解码器的pre-nets都施加严格的约束（将在后面描述），因此作者使用具有可训练权重的位置编码，以便这些位置编码可以自适应地匹配编码器和解码器pre-nets输出的比例，公式如下：
$$x_i=prenet(phoneme_i)+\alpha PE(i)$$
其中$\alpha$是可训练权重。
Encoder Pre-net：在Tacotron2中，将三层CNN应用于输入文本嵌入，它可以对输入字符序列中的上下文进行建模。在这里的Transformer TTS模型中，将 phoneme序列输入到同一网络中，这称为“encoder pre-net”。每个phoneme具有512维的可训练嵌入，每个卷积层的输出具有512个通道，然后进行batch normalization、ReLU激活以及dropout。此外，由于ReLU的输出范围是 $[0,\infty]$，而这些位置编码的每个维数都在 $[-1,1]$ 中，所以作者在最终ReLU激活后添加了线性层。在实验中证明，在Nonnegative Embeddings中添加以0为中心的位置信息将影响模型的性能。
Decoder Pre-net：梅尔频谱图首先被具有ReLU激活的，由两个全连接层（每个层都有256个隐藏单元）组成的神经网络处理，称为“decoder pre-net”，它在TTS系统中起着重要作用。phonemes具有可训练的嵌入，因此其子空间是自适应的，而梅尔频谱图的是固定的。作者推断decoder pre-net负责将梅尔频谱图投影到与phonemes嵌入相同的子空间中，从而可以计算 $\left \langle phoneme, mel\ frame \right \rangle$ 对的相似性，从而使注意力机制发挥作用。此外，还尝试了2个没有非线性激活的全连接层，但是无法生成合理的注意力矩阵来对齐编码器和解码器的隐藏状态。此外，作者推测梅尔谱图具有一个紧凑且低维的子空间，其中256个隐藏单元足以映射。同encoder pre-net一样，还添加了一个附加的线性层，不仅用于中心一致性，而且还获得与位置编码相同的尺寸。
Encoder：在Tacotron2中，编码器是双向RNN，而这里使用Transformer编码器代替它。与原始的双向RNN相比，多头注意力将注意力分散到几个子空间中，从而可以在多个不同方面建模帧关系，并直接建立任意两个帧之间的长依赖关系，因此每个帧都被视为整个序列的全局上下文。这对于合成音频韵律至关重要，尤其是在句子较长的情况下。
Decoder：在Tacotron2中，解码器是一个结合location sensitive attention的2层RNN，而这里使用Transformer解码器代替它。
Mel Linear、Stop Linear和Post-net：与Tacotron2相同，我们分别使用两个不同的线性层来预测梅尔频谱图和停止标记，并使用5层CNN产生残差来完善mel频谱图的重建。值得一提的是，对于停止标记的线性层而言，每个序列的末尾只有一个正样本，表示“停止”，而其他帧则是负样本，这种不平衡可能导致无法停止的推断。在计算二元交叉熵损失时，作者在停止标记的正样本上施加正权重 $(5.0\sim 8.0)$，从而有效地解决了这个问题。

实验结果

实验使用25小时的专业语音对测试Transformer TTS模型，并通过人工测试在MOS和CMOS中评估音频质量。由于训练样本的长度相差很大，因此，如果以长样本为准扩大batch尺寸将占用很大内存，而如果以短样本为准缩小batch尺寸则会浪费并行计算能力，因此，作者使用动态batch大小，其中最大总的Mel光谱图帧数是固定的，并且一个batch应包含尽可能多的样本。

Tacotron2使用字符序列作为输入，而本文的模型是根据pre-normalized phoneme序列训练的。自回归WaveNet包含2个QRNN层和20个扩张层，所有残差通道和扩张通道的大小均为 $256$。QRNN最终输出的每一帧均被复制200次，以具有与音频样本相同的空间分辨率且条件为20扩张层。

下表是MOS和CMOS指标的对比结果：
在这里插入图片描述
下图是模型生成的梅尔频谱的结果对比：如我们所见，论文模型在重建以红色矩形标记的细节方面做得更好，而Tacotron2在高频区域则省略了细节纹理。

下表显示了中心一致的位置编码效果稍好：

下图表明编码器和解码器的最终位置编码比例不同的对比：
在这里插入图片描述

下表显示了具有可缩放比例的模型，其性能略有提高：
在这里插入图片描述

下面3张表是比较具有不同层数和头注意力数的性能和训练速度。发现减少层数和头注意力数均可以提高训练速度，但另一方面，会在不同程度上损害模型性能。
在这里插入图片描述

总结

值得再次提及的是batch大小对于训练稳定性至关重要，并且更多的层可以完善生成的mel频谱图的细节，尤其是在高频区域，从而提高模型性能。论文作者对这一模型做了很多的实验，总的来说，训练时期的速度大大提高，加快了2到3倍，生成语音的质量也好于传统RNN结构模型（存疑，复现版本仅仅能做到效果相接近，可能是作者的调参技艺比较高超）。基于Transformer的TTS模型已是现在主流的End-to-End TTS系统的baseline，它的实现必不可少，而且因为Transformer本身优异的结构，也能大大加快实验的速度。

论文阅读笔记：使用Transformer进行语音合成

前言

介绍

相关知识

模型结构

实验结果

总结