Merge pull request #21 from eginhard/audio-length

refactor(dataset): get audio length with torchaudio
2024-03-14 21:40:54 +01:00 · 2024-03-14 21:40:54 +01:00 · 571f065994
parent e5c6da1c98 adbcba06da
commit 571f065994
2 changed files with 4 additions and 5 deletions
--- a/TTS/tts/datasets/dataset.py
+++ b/TTS/tts/datasets/dataset.py
@ -4,9 +4,9 @@ import os
 import random
 from typing import Dict, List, Union

-import mutagen
 import numpy as np
 import torch
+import torchaudio
 import tqdm
 from torch.utils.data import Dataset

@ -43,15 +43,15 @@ def string2filename(string):
    return filename


-def get_audio_size(audiopath):
+def get_audio_size(audiopath) -> int:
+    """Return the number of samples in the audio file."""
    extension = audiopath.rpartition(".")[-1].lower()
    if extension not in {"mp3", "wav", "flac"}:
        raise RuntimeError(
            f"The audio format {extension} is not supported, please convert the audio files to mp3, flac, or wav format!"
        )

-    audio_info = mutagen.File(audiopath).info
-    return int(audio_info.length * audio_info.sample_rate)
+    return torchaudio.info(audiopath).num_frames


 class TTSDataset(Dataset):
--- a/requirements.txt
+++ b/requirements.txt
@ -12,7 +12,6 @@ anyascii>=0.3.0
 pyyaml>=6.0
 fsspec[http]>=2023.6.0 # <= 2023.9.1 makes aux tests fail
 packaging>=23.1
-mutagen==1.47.0
 # deps for inference
 pysbd>=0.3.4
 # deps for notebooks