FFTransformer Decoder for AlignTTS

2021-03-16 17:05:15 +01:00 · 2021-03-16 17:05:15 +01:00 · 460a2d3e26
parent 2c364c0df8
commit 460a2d3e26
1 changed files with 36 additions and 3 deletions
--- a/TTS/tts/layers/feed_forward/decoder.py
+++ b/TTS/tts/layers/feed_forward/decoder.py
@ -3,6 +3,7 @@ from torch import nn
 from TTS.tts.layers.generic.res_conv_bn import Conv1dBNBlock, ResidualConv1dBNBlock, Conv1dBN
 from TTS.tts.layers.generic.wavenet import WNBlocks
 from TTS.tts.layers.glow_tts.transformer import RelativePositionTransformer
+from TTS.tts.layers.generic.transformer import FFTransformersBlock


 class WaveNetDecoder(nn.Module):
@ -89,6 +90,36 @@ class RelativePositionTransformerDecoder(nn.Module):
        return o


+class FFTransformerDecoder(nn.Module):
+    """Decoder with FeedForwardTransformer.
+
+    Note:
+        Default params
+            params={
+                'hidden_channels_ffn': 1024,
+                'num_heads': 2,
+                "dropout_p": 0.1,
+                "num_layers": 6,
+            }
+
+    Args:
+        in_channels (int): number of input channels.
+        out_channels (int): number of output channels.
+        hidden_channels (int): number of hidden channels including Transformer layers.
+        params (dict): dictionary for residual convolutional blocks.
+    """
+    def __init__(self, in_channels, out_channels, params):
+
+        super().__init__()
+        self.transformer_block = FFTransformersBlock(in_channels, **params)
+        self.postnet = nn.Conv1d(in_channels, out_channels, 1)
+
+    def forward(self, x, x_mask=None, g=None):  # pylint: disable=unused-argument
+        # TODO: handle multi-speaker
+        o = self.transformer_block(x) * x_mask
+        o = self.postnet(o)*  x_mask
+        return o
+
 class ResidualConv1dBNDecoder(nn.Module):
    """Residual Convolutional Decoder as in the original Speedy Speech paper

@ -159,24 +190,26 @@ class Decoder(nn.Module):
            c_in_channels=0):
        super().__init__()

-        if decoder_type == 'transformer':
+        if decoder_type.lower() == "relative_position_transformer":
            self.decoder = RelativePositionTransformerDecoder(
                in_channels=in_hidden_channels,
                out_channels=out_channels,
                hidden_channels=in_hidden_channels,
                params=decoder_params)
-        elif decoder_type == 'residual_conv_bn':
+        elif decoder_type.lower() == 'residual_conv_bn':
            self.decoder = ResidualConv1dBNDecoder(
                in_channels=in_hidden_channels,
                out_channels=out_channels,
                hidden_channels=in_hidden_channels,
                params=decoder_params)
-        elif decoder_type == 'wavenet':
+        elif decoder_type.lower() == 'wavenet':
            self.decoder = WaveNetDecoder(in_channels=in_hidden_channels,
                                          out_channels=out_channels,
                                          hidden_channels=in_hidden_channels,
                                          c_in_channels=c_in_channels,
                                          params=decoder_params)
+        elif decoder_type.lower() == 'transformer':
+            self.decoder = FFTransformerDecoder(in_hidden_channels, out_channels, decoder_params)
        else:
            raise ValueError(f'[!] Unknown decoder type - {decoder_type}')