Add transformer block to UNet

2024-02-15 18:52:42 +00:00 · 2024-02-15 18:52:42 +00:00 · f15230bb67
parent 5fd7ea93ea
commit f15230bb67
1 changed files with 124 additions and 7 deletions
--- a/TTS/tts/layers/matcha_tts/UNet.py
+++ b/TTS/tts/layers/matcha_tts/UNet.py
@ -1,7 +1,8 @@
 import math
-from einops import pack
+from einops import pack, rearrange
 import torch
 from torch import nn
+import conformer


 class PositionalEncoding(torch.nn.Module):
@ -71,6 +72,40 @@ class Upsample1D(nn.Module):

    def forward(self, x):
        return self.conv(x)
+    
+
+class ConformerBlock(conformer.ConformerBlock):
+    def __init__(
+        self,
+        dim: int,
+        dim_head: int = 64,
+        heads: int = 8,
+        ff_mult: int = 4,
+        conv_expansion_factor: int = 2,
+        conv_kernel_size: int = 31,
+        attn_dropout: float = 0.,
+        ff_dropout: float = 0.,
+        conv_dropout: float = 0.,
+        conv_causal: bool = False,
+    ):
+        super().__init__(
+            dim=dim,
+            dim_head=dim_head,
+            heads=heads,
+            ff_mult=ff_mult,
+            conv_expansion_factor=conv_expansion_factor,
+            conv_kernel_size=conv_kernel_size,
+            attn_dropout=attn_dropout,
+            ff_dropout=ff_dropout,
+            conv_dropout=conv_dropout,
+            conv_causal=conv_causal,
+        )
+
+    def forward(self, x, mask,):
+        x = rearrange(x, "b c t -> b t c")
+        mask = rearrange(mask, "b 1 t -> b t")
+        output = super().forward(x=x, mask=mask.bool())
+        return rearrange(output, "b t c -> b c t")


 class UNet(nn.Module):
@ -80,6 +115,12 @@ class UNet(nn.Module):
        model_channels: int,
        out_channels: int,
        num_blocks: int,
+        transformer_num_heads: int = 4,
+        transformer_dim_head: int = 64,
+        transformer_ff_mult: int = 1,
+        transformer_conv_expansion_factor: int = 2,
+        transformer_conv_kernel_size: int = 31,
+        transformer_dropout: float = 0.05,
    ):
        super().__init__()
        self.in_channels = in_channels
@ -107,6 +148,18 @@ class UNet(nn.Module):
                )
            )

+            block.append(
+                self._create_transformer_block(
+                    block_out_channels,
+                    dim_head=transformer_dim_head,
+                    num_heads=transformer_num_heads,
+                    ff_mult=transformer_ff_mult,
+                    conv_expansion_factor=transformer_conv_expansion_factor,
+                    conv_kernel_size=transformer_conv_kernel_size,
+                    dropout=transformer_dropout,
+                )
+            )
+
            if level != num_blocks - 1:
                block.append(Downsample1D(block_out_channels))
            else:
@ -116,6 +169,30 @@ class UNet(nn.Module):
            self.input_blocks.append(block)

        self.middle_blocks = nn.ModuleList([])
+        for i in range(2):
+            block = nn.ModuleList([])
+
+            block.append(
+                ResNetBlock1D(
+                    in_channels=block_out_channels,
+                    out_channels=block_out_channels,
+                    time_embed_channels=time_embed_channels
+                )
+            )
+
+            block.append(
+                self._create_transformer_block(
+                    block_out_channels,
+                    dim_head=transformer_dim_head,
+                    num_heads=transformer_num_heads,
+                    ff_mult=transformer_ff_mult,
+                    conv_expansion_factor=transformer_conv_expansion_factor,
+                    conv_kernel_size=transformer_conv_kernel_size,
+                    dropout=transformer_dropout,
+                )
+            )
+
+            self.middle_blocks.append(block)

        self.output_blocks = nn.ModuleList([])
        block_in_channels = block_out_channels * 2
@ -131,6 +208,18 @@ class UNet(nn.Module):
                )
            )

+            block.append(
+                self._create_transformer_block(
+                    block_out_channels,
+                    dim_head=transformer_dim_head,
+                    num_heads=transformer_num_heads,
+                    ff_mult=transformer_ff_mult,
+                    conv_expansion_factor=transformer_conv_expansion_factor,
+                    conv_kernel_size=transformer_conv_kernel_size,
+                    dropout=transformer_dropout,
+                )
+            )
+
            if level != num_blocks - 1:
                block.append(Upsample1D(block_out_channels))
            else:
@ -142,6 +231,29 @@ class UNet(nn.Module):
        self.conv_block = ConvBlock1D(model_channels, model_channels)
        self.conv = nn.Conv1d(model_channels, self.out_channels, 1)

+    def _create_transformer_block(
+        self,
+        dim,
+        dim_head: int = 64,
+        num_heads: int = 4,
+        ff_mult: int = 1,
+        conv_expansion_factor: int = 2,
+        conv_kernel_size: int = 31,
+        dropout: float = 0.05,
+    ):  
+        return ConformerBlock(
+            dim=dim,
+            dim_head=dim_head,
+            heads=num_heads,
+            ff_mult=ff_mult,
+            conv_expansion_factor=conv_expansion_factor,
+            conv_kernel_size=conv_kernel_size,
+            attn_dropout=dropout,
+            ff_dropout=dropout,
+            conv_dropout=dropout,
+            conv_causal=False,
+        )
+
    def forward(self, x_t, mean, mask, t):
        t = self.time_encoder(t)
        t = self.time_embed(t)
@ -152,9 +264,11 @@ class UNet(nn.Module):
        mask_states = [mask]

        for block in self.input_blocks:
-            res_net_block, downsample = block
+            res_net_block, transformer, downsample = block

            x_t = res_net_block(x_t, mask, t)
+            x_t = transformer(x_t, mask)
+
            hidden_states.append(x_t)

            if downsample is not None:
@ -162,20 +276,23 @@ class UNet(nn.Module):
                mask = mask[:, :, ::2]
                mask_states.append(mask)

-        for _ in self.middle_blocks:
-            pass
+        for block in self.middle_blocks:
+            res_net_block, transformer = block
+            mask = mask_states[-1]
+            x_t = res_net_block(x_t, mask, t)
+            x_t = transformer(x_t, mask)

        for block in self.output_blocks:
-            res_net_block, upsample = block
-            
+            res_net_block, transformer, upsample = block
+
            x_t = pack([x_t, hidden_states.pop()], "b * t")[0]
            mask = mask_states.pop()
            x_t = res_net_block(x_t, mask, t)
+            x_t = transformer(x_t, mask)

            if upsample is not None:
                x_t = upsample(x_t * mask)

-
        output = self.conv_block(x_t)
        output = self.conv(x_t)