Update librispeech deepspeech recipe

2021-10-01 13:34:00 +00:00 · 2021-10-01 13:34:00 +00:00 · 42f77e7185
parent 3aaf6a28e9
commit 42f77e7185
1 changed files with 20 additions and 16 deletions
--- a/recipes/librispeech/stt/deep_speech/train_deep_speech.py
+++ b/recipes/librispeech/stt/deep_speech/train_deep_speech.py
@ -13,21 +13,27 @@ output_path = os.path.dirname(os.path.abspath(__file__))
 if not os.path.exists("/home/ubuntu/librispeech/LibriSpeech/train-clean-100"):
    download_librispeech("/home/ubuntu/librispeech/", "train-clean-100")
 if not os.path.exists("/home/ubuntu/librispeech/LibriSpeech/train-clean-360"):
    download_librispeech("/home/ubuntu/librispeech/", "train-clean-360")
 if not os.path.exists("/home/ubuntu/librispeech/LibriSpeech/train-other-500"):
    download_librispeech("/home/ubuntu/librispeech/", "train-other-500")
 if not os.path.exists("/home/ubuntu/librispeech/LibriSpeech/dev-clean"):
    download_librispeech("/home/ubuntu/librispeech/", "dev-clean")
-# train_dataset_config = BaseDatasetConfig(
+train_dataset_config1 = BaseDatasetConfig(
-# name="librispeech", meta_file_train=None, path="/home/ubuntu/librispeech/LibriSpeech/train-clean-100"
+name="librispeech", meta_file_train=None, path="/home/ubuntu/librispeech/LibriSpeech/train-clean-100"
-# )
+)
-# eval_dataset_config = BaseDatasetConfig(
+train_dataset_config2 = BaseDatasetConfig(
-# name="librispeech", meta_file_train=None, path="/home/ubuntu/librispeech/LibriSpeech/dev-clean"
+name="librispeech", meta_file_train=None, path="/home/ubuntu/librispeech/LibriSpeech/train-clean-360"
-# )
+)
-train_dataset_config = BaseDatasetConfig(
+train_dataset_config3 = BaseDatasetConfig(
-    name="ljspeech",
+name="librispeech", meta_file_train=None, path="/home/ubuntu/librispeech/LibriSpeech/train-other-500"
-    meta_file_train="metadata.csv",
+)
-    path="/home/ubuntu/ljspeech/LJSpeech-1.1/",
+
 eval_dataset_config = BaseDatasetConfig(
 name="librispeech", meta_file_train=None, path="/home/ubuntu/librispeech/LibriSpeech/dev-clean"
 )
@ -59,16 +65,16 @@ config = DeepSpeechConfig(
    mixed_precision=True,
    max_seq_len=500000,
    output_path=output_path,
-    train_datasets=[train_dataset_config],
+    train_datasets=[train_dataset_config1, train_dataset_config2, train_dataset_config3],
-    # eval_datasets=[eval_dataset_config],
+    eval_datasets=[eval_dataset_config]
 )
 # init audio processor
 ap = AudioProcessor(**config.audio.to_dict())
 # load training samples
-train_samples, eval_samples = load_stt_samples(train_dataset_config, eval_split=True)
+train_samples, _ = load_stt_samples(config.train_datasets, eval_split=False)
-# eval_samples, _ = load_stt_samples(eval_dataset_config, eval_split=False)
+eval_samples, _ = load_stt_samples(config.eval_datasets, eval_split=False)
 transcripts = [s["text"] for s in train_samples]
 # init tokenizer
@ -81,13 +87,11 @@ config.vocabulary = tokenizer.vocab_dict
 model = DeepSpeech(config)
 # init training and kick it 🚀
 # args, config, output_path, _, c_logger, tb_logger = init_training(TrainingArgs(), config)
 trainer = Trainer(
    TrainingArgs(),
    config,
    output_path,
    model=model,
    tokenizer=tokenizer,
    train_samples=train_samples,
    eval_samples=eval_samples,
    cudnn_benchmark=False,