Init speaker manager for speaker encoder

2021-12-22 15:51:53 +00:00 · 2021-12-22 15:51:53 +00:00 · 5c5ddd2ba7
parent 633dcc9c56
commit 5c5ddd2ba7
2 changed files with 10 additions and 3 deletions
--- a/TTS/tts/utils/speakers.py
+++ b/TTS/tts/utils/speakers.py
@ -256,11 +256,11 @@ class SpeakerManager:
        self.speaker_encoder.load_checkpoint(config_path, model_path, eval=True, use_cuda=self.use_cuda)
        self.speaker_encoder_ap = AudioProcessor(**self.speaker_encoder_config.audio)

-    def compute_d_vector_from_clip(self, wav_file: Union[str, list]) -> list:
+    def compute_d_vector_from_clip(self, wav_file: Union[str, List[str]]) -> list:
        """Compute a d_vector from a given audio file.

        Args:
-            wav_file (Union[str, list]): Target file path.
+            wav_file (Union[str, List[str]]): Target file path.

        Returns:
            list: Computed d_vector.
--- a/TTS/utils/synthesizer.py
+++ b/TTS/utils/synthesizer.py
@ -171,7 +171,12 @@ class Synthesizer(object):
    def _init_speaker_encoder(self, speaker_manager):
        """Initialize the SpeakerEncoder"""
        if self.encoder_checkpoint:
-            speaker_manager.init_speaker_encoder(self.encoder_checkpoint, self.encoder_config)
+            if speaker_manager is None:
+                speaker_manager = SpeakerManager(
+                    encoder_model_path=self.encoder_checkpoint, encoder_config_path=self.encoder_config
+                )
+            else:
+                speaker_manager.init_speaker_encoder(self.encoder_checkpoint, self.encoder_config)
        return speaker_manager

    def _init_language_manager(self):
@ -183,6 +188,8 @@ class Synthesizer(object):
                language_manager = LanguageManager(language_ids_file_path=self.tts_languages_file)
            elif self.tts_config.get("language_ids_file", None):
                language_manager = LanguageManager(language_ids_file_path=self.tts_config.language_ids_file)
+            else:
+                language_manager = LanguageManager(config=self.tts_config)
        return language_manager

    def _load_vocoder(self, model_file: str, model_config: str, use_cuda: bool) -> None: