Make style

2023-11-06 19:02:09 +01:00 · 2023-11-06 19:02:09 +01:00 · b702b39b52
parent 46940cb64b
commit b702b39b52
6 changed files with 16 additions and 14 deletions
--- a/TTS/tts/models/base_tacotron.py
+++ b/TTS/tts/models/base_tacotron.py
@ -252,7 +252,12 @@ class BaseTacotron(BaseTTS):
    def compute_capacitron_VAE_embedding(self, inputs, reference_mel_info, text_info=None, speaker_embedding=None):
        """Capacitron Variational Autoencoder"""
-        (VAE_outputs, posterior_distribution, prior_distribution, capacitron_beta,) = self.capacitron_vae_layer(
+        (
            VAE_outputs,
            posterior_distribution,
            prior_distribution,
            capacitron_beta,
        ) = self.capacitron_vae_layer(
            reference_mel_info,
            text_info,
            speaker_embedding,  # pylint: disable=not-callable
--- a/TTS/tts/models/tortoise.py
+++ b/TTS/tts/models/tortoise.py
@ -676,7 +676,12 @@ class Tortoise(BaseTTS):
        ), "Too much text provided. Break the text up into separate segments and re-try inference."
        if voice_samples is not None:
-            (auto_conditioning, diffusion_conditioning, _, _,) = self.get_conditioning_latents(
+            (
                auto_conditioning,
                diffusion_conditioning,
                _,
                _,
            ) = self.get_conditioning_latents(
                voice_samples,
                return_mels=True,
                latent_averaging_mode=latent_averaging_mode,
--- a/recipes/ljspeech/xtts_v1/train_gpt_xtts.py
+++ b/recipes/ljspeech/xtts_v1/train_gpt_xtts.py
@ -97,9 +97,7 @@ def main():
        use_ne_hifigan=True,  # if it is true it will keep the non-enhanced keys on the output checkpoint
    )
    # define audio config
-    audio_config = XttsAudioConfig(
+    audio_config = XttsAudioConfig(sample_rate=22050, dvae_sample_rate=22050, output_sample_rate=24000)
        sample_rate=22050, dvae_sample_rate=22050, output_sample_rate=24000
    )
    # training parameters config
    config = GPTTrainerConfig(
        output_path=OUT_PATH,
--- a/recipes/ljspeech/xtts_v2/train_gpt_xtts.py
+++ b/recipes/ljspeech/xtts_v2/train_gpt_xtts.py
@ -98,9 +98,7 @@ def main():
        gpt_use_perceiver_resampler=True,
    )
    # define audio config
-    audio_config = XttsAudioConfig(
+    audio_config = XttsAudioConfig(sample_rate=22050, dvae_sample_rate=22050, output_sample_rate=24000)
        sample_rate=22050, dvae_sample_rate=22050, output_sample_rate=24000
    )
    # training parameters config
    config = GPTTrainerConfig(
        output_path=OUT_PATH,
--- a/tests/xtts_tests/test_xtts_gpt_train.py
+++ b/tests/xtts_tests/test_xtts_gpt_train.py
@ -88,9 +88,7 @@ model_args = GPTArgs(
    gpt_stop_audio_token=8193,
    use_ne_hifigan=True,
 )
-audio_config = XttsAudioConfig(
+audio_config = XttsAudioConfig(sample_rate=22050, dvae_sample_rate=22050, output_sample_rate=24000)
    sample_rate=22050, dvae_sample_rate=22050, output_sample_rate=24000
 )
 config = GPTTrainerConfig(
    epochs=1,
    output_path=OUT_PATH,
--- a/tests/xtts_tests/test_xtts_v2-0_gpt_train.py
+++ b/tests/xtts_tests/test_xtts_v2-0_gpt_train.py
@ -88,9 +88,7 @@ model_args = GPTArgs(
    gpt_use_perceiver_resampler=True,
    use_ne_hifigan=True,
 )
-audio_config = XttsAudioConfig(
+audio_config = XttsAudioConfig(sample_rate=22050, dvae_sample_rate=22050, output_sample_rate=24000)
    sample_rate=22050, dvae_sample_rate=22050, output_sample_rate=24000
 )
 config = GPTTrainerConfig(
    epochs=1,
    output_path=OUT_PATH,