add compute embedding for the new speaker encoder

2021-05-12 03:06:46 -03:00 · 2021-05-12 03:06:46 -03:00 · 3433c2f348
parent 3fcc748b2e
commit 3433c2f348
2 changed files with 33 additions and 4 deletions
--- a/TTS/bin/compute_embeddings.py
+++ b/TTS/bin/compute_embeddings.py
@ -6,7 +6,7 @@ import numpy as np
 import torch
 from tqdm import tqdm
-from TTS.speaker_encoder.model import SpeakerEncoder
+from TTS.speaker_encoder.utils.generic_utils import setup_model
 from TTS.tts.datasets.preprocess import load_meta_data
 from TTS.tts.utils.speakers import save_speaker_mapping
 from TTS.utils.audio import AudioProcessor
@ -77,7 +77,7 @@ for output_file in output_files:
    os.makedirs(os.path.dirname(output_file), exist_ok=True)
 # define Encoder model
-model = SpeakerEncoder(**c.model)
+model = setup_model(c)
 model.load_state_dict(torch.load(args.model_path)["model"])
 model.eval()
 if args.use_cuda:
--- a/TTS/speaker_encoder/models/resnet.py
+++ b/TTS/speaker_encoder/models/resnet.py
@ -124,7 +124,7 @@ class ResNetSpeakerEncoder(nn.Module):
        nn.init.xavier_normal_(out)
        return out
-    def forward(self, x):
+    def forward(self, x, training=True):
        x = x.transpose(1, 2)
        with torch.no_grad():
            with torch.cuda.amp.autocast(enabled=False):
@ -140,7 +140,7 @@ class ResNetSpeakerEncoder(nn.Module):
        x = self.layer3(x)
        x = self.layer4(x)
-        x = x.reshape(x.size()[0],-1,x.size()[-1])
+        x = x.reshape(x.size()[0], -1, x.size()[-1])
        w = self.attention(x)
@ -154,4 +154,33 @@ class ResNetSpeakerEncoder(nn.Module):
        x = x.view(x.size()[0], -1)
        x = self.fc(x)
        if not training:
            x = torch.nn.functional.normalize(x, p=2, dim=1)
        return x
    @torch.no_grad()
    def compute_embedding(self, x, num_frames=250, overlap=0.5):
        """
        Generate embeddings for a batch of utterances
        x: 1xTxD
        """
        num_overlap = int(num_frames * overlap)
        max_len = x.shape[1]
        embed = None
        cur_iter = 0
        for offset in range(0, max_len, num_frames - num_overlap):
            cur_iter += 1
            end_offset = min(x.shape[1], offset + num_frames)
            # ignore slices with two or less frames, because it's can break instance normalization
            if end_offset-offset <= 1:
                continue
            frames = x[:, offset:end_offset]
            if embed is None:
                embed = self.forward(frames, training=False)
            else:
                embed += self.forward(frames, training=False)
        return embed / cur_iter