Merge pull request #1044 from WeberJulian/dev

Fixes before YourTTS merge
2022-01-02 11:27:37 +01:00 · 2022-01-02 11:27:37 +01:00 · d82fa0536f
parent 7ef458a59c 9d0a732f97
commit d82fa0536f
2 changed files with 9 additions and 3 deletions
--- a/TTS/tts/datasets/dataset.py
+++ b/TTS/tts/datasets/dataset.py
@ -273,7 +273,9 @@ class TTSDataset(Dataset):
        item = args[0]
        func_args = args[1]
        text, wav_file, *_ = item
-        func_args[3] = item[3]
+        if item[3] is not None and item[3] != '':
+            # If language is specified in dataset, overwrite phoneme_language key
+            func_args[3] = item[3]
        phonemes = TTSDataset._load_or_generate_phoneme_sequence(wav_file, text, *func_args)
        return phonemes

--- a/recipes/vctk/vits/train_vits.py
+++ b/recipes/vctk/vits/train_vits.py
@ -5,7 +5,7 @@ from TTS.trainer import Trainer, TrainingArgs
 from TTS.tts.configs.shared_configs import BaseDatasetConfig
 from TTS.tts.configs.vits_config import VitsConfig
 from TTS.tts.datasets import load_tts_samples
-from TTS.tts.models.vits import Vits
+from TTS.tts.models.vits import Vits, VitsArgs
 from TTS.tts.utils.speakers import SpeakerManager
 from TTS.utils.audio import AudioProcessor

@ -31,10 +31,14 @@ audio_config = BaseAudioConfig(
    resample=True,
 )

+vitsArgs = VitsArgs(
+    use_speaker_embedding=True,
+)
+
 config = VitsConfig(
+    model_args=vitsArgs,
    audio=audio_config,
    run_name="vits_vctk",
-    use_speaker_embedding=True,
    batch_size=32,
    eval_batch_size=16,
    batch_group_size=5,