Make style

2022-04-19 10:59:59 +02:00 · 2022-04-19 10:59:59 +02:00 · 9291d13c69
parent edd59c81e8
commit 9291d13c69
6 changed files with 27 additions and 23 deletions
--- a/TTS/tts/datasets/dataset.py
+++ b/TTS/tts/datasets/dataset.py
@ -11,7 +11,6 @@ from torch.utils.data import Dataset
 from TTS.tts.utils.data import prepare_data, prepare_stop_target, prepare_tensor
 from TTS.utils.audio.numpy_transforms import load_wav, wav_to_mel, wav_to_spec
 # to prevent too many open files error as suggested here
 # https://github.com/pytorch/pytorch/issues/11201#issuecomment-421146936
 torch.multiprocessing.set_sharing_strategy("file_system")
--- a/TTS/tts/models/forward_tts_e2e.py
+++ b/TTS/tts/models/forward_tts_e2e.py
@ -2,10 +2,9 @@ import os
 from dataclasses import dataclass, field
 from itertools import chain
 from typing import Dict, List, Tuple, Union
 import numpy as np
 import pyworld as pw
 import torch
 import torch.distributed as dist
 from coqpit import Coqpit
@ -20,15 +19,16 @@ from TTS.tts.layers.vits.discriminator import VitsDiscriminator
 from TTS.tts.models.base_tts import BaseTTSE2E
 from TTS.tts.models.forward_tts import ForwardTTS, ForwardTTSArgs
 from TTS.tts.models.vits import load_audio, wav_to_mel
 from TTS.utils.audio.numpy_transforms import build_mel_basis, compute_f0, mel_to_wav as mel_to_wav_numpy
 from TTS.tts.utils.helpers import rand_segments, segment, sequence_mask
 from TTS.tts.utils.speakers import SpeakerManager
 from TTS.tts.utils.synthesis import synthesis
 from TTS.tts.utils.text.tokenizer import TTSTokenizer
-from TTS.tts.utils.visual import plot_alignment, plot_avg_pitch
+from TTS.tts.utils.visual import plot_alignment, plot_avg_pitch, plot_spectrogram
 from TTS.utils.audio.numpy_transforms import build_mel_basis, compute_f0
 from TTS.utils.audio.numpy_transforms import db_to_amp as db_to_amp_numpy
 from TTS.utils.audio.numpy_transforms import mel_to_wav as mel_to_wav_numpy
 from TTS.vocoder.models.hifigan_generator import HifiganGenerator
 from TTS.vocoder.utils.generic_utils import plot_results
 from TTS.tts.utils.visual import plot_alignment, plot_avg_pitch, plot_spectrogram
 def id_to_torch(aux_id, cuda=False):
@ -89,7 +89,9 @@ class ForwardTTSE2eF0Dataset(F0Dataset):
    @staticmethod
    def _compute_and_save_pitch(config, wav_file, pitch_file=None):
        wav, _ = load_audio(wav_file)
-        f0 = compute_f0(x=wav.numpy()[0], sample_rate=config.sample_rate, hop_length=config.hop_length, pitch_fmax=config.pitch_fmax)
+        f0 = compute_f0(
            x=wav.numpy()[0], sample_rate=config.sample_rate, hop_length=config.hop_length, pitch_fmax=config.pitch_fmax
        )
        # skip the last F0 value to align with the spectrogram
        if wav.shape[1] % config.hop_length != 0:
            f0 = f0[:-1]
@ -632,7 +634,9 @@ class ForwardTTSE2e(BaseTTSE2E):
            figures["alignment_hat"] = plot_alignment(alignments_hat.T, output_fig=False)
        # Sample audio
-        encoder_audio = mel_to_wav_numpy(mel=pred_spec.T, mel_basis=self.__mel_basis, **self.config.audio)
+        encoder_audio = mel_to_wav_numpy(
            mel=db_to_amp_numpy(x=pred_spec.T, gain=1, base=None), mel_basis=self.__mel_basis, **self.config.audio
        )
        audios[f"{name_prefix}/encoder_audio"] = encoder_audio
        # vocoder outputs
@ -780,7 +784,9 @@ class ForwardTTSE2e(BaseTTSE2E):
        outputs = self.inference_spec_decoder(text_inputs, aux_input={"d_vectors": d_vector, "speaker_ids": speaker_id})
        # collect outputs
-        wav = mel_to_wav_numpy(mel=outputs["model_outputs"].cpu().numpy()[0].T, mel_basis=self.__mel_basis, **self.config.audio)
+        wav = mel_to_wav_numpy(
            mel=outputs["model_outputs"].cpu().numpy()[0].T, mel_basis=self.__mel_basis, **self.config.audio
        )
        alignments = outputs["alignments"]
        return_dict = {
            "wav": wav[None, :],
--- a/TTS/utils/audio/numpy_transforms.py
+++ b/TTS/utils/audio/numpy_transforms.py
@ -1,10 +1,10 @@
 from typing import Callable, Tuple
 import librosa
 import numpy as np
 import soundfile as sf
 import pyworld as pw
 import scipy
 import soundfile as sf
 # from TTS.tts.utils.helpers import StandardScaler
@ -148,21 +148,15 @@ def wav_to_mel(*, y: np.ndarray = None, **kwargs) -> np.ndarray:
    return S.astype(np.float32)
-def spec_to_wav(*, spec: np.ndarray, power: float = 1.5, denorm_func: Callable = None, **kwargs) -> np.ndarray:
+def spec_to_wav(*, spec: np.ndarray, power: float = 1.5, **kwargs) -> np.ndarray:
    """Convert a spectrogram to a waveform using Griffi-Lim vocoder."""
    S = spec.copy()
    if denorm_func is not None:
        S = denorm_func(spec=S, **kwargs)
    S = db_to_amp(S)
    return griffin_lim(spec=S**power, **kwargs)
-def mel_to_wav(*, mel: np.ndarray = None, power: float = 1.5, denorm_func: Callable = None, **kwargs) -> np.ndarray:
+def mel_to_wav(*, mel: np.ndarray = None, power: float = 1.5, **kwargs) -> np.ndarray:
    """Convert a melspectrogram to a waveform using Griffi-Lim vocoder."""
    S = mel.copy()
    if denorm_func is not None:
        S = denorm_func(spec=S, **kwargs)
    S = db_to_amp(S)
    S = mel_to_spec(mel=S, mel_basis=kwargs["mel_basis"])  # Convert back to linear
    return griffin_lim(spec=S**power, **kwargs)
--- a/TTS/utils/audio/torch_transforms.py
+++ b/TTS/utils/audio/torch_transforms.py
@ -1,6 +1,6 @@
 import librosa
 import torch
 from torch import nn
 import librosa
 class TorchSTFT(nn.Module):  # pylint: disable=abstract-method
--- a/TTS/vocoder/utils/generic_utils.py
+++ b/TTS/vocoder/utils/generic_utils.py
@ -3,9 +3,9 @@ from typing import Dict
 import numpy as np
 import torch
 from matplotlib import pyplot as plt
 from TTS.utils.audio.numpy_transforms import amp_to_db, build_mel_basis, wav_to_mel
 from TTS.tts.utils.visual import plot_spectrogram
 from TTS.utils.audio.numpy_transforms import amp_to_db, build_mel_basis, wav_to_mel
 from TTS.utils.audio.processor import AudioProcessor
@ -30,7 +30,13 @@ def interpolate_vocoder_input(scale_factor, spec):
    return spec
-def plot_results(y_hat: torch.tensor, y: torch.tensor, ap: AudioProcessor=None, audio_config: "Coqpit"= None,  name_prefix: str = None) -> Dict:
+def plot_results(
    y_hat: torch.tensor,
    y: torch.tensor,
    ap: AudioProcessor = None,
    audio_config: "Coqpit" = None,
    name_prefix: str = None,
 ) -> Dict:
    """Plot the predicted and the real waveform and their spectrograms.
    Args:
--- a/recipes/ljspeech/fast_pitch_e2e/train_fast_pitch_e2e.py
+++ b/recipes/ljspeech/fast_pitch_e2e/train_fast_pitch_e2e.py
@ -8,7 +8,6 @@ from TTS.tts.datasets import load_tts_samples
 from TTS.tts.models.forward_tts_e2e import ForwardTTSE2e, ForwardTTSE2eArgs, ForwardTTSE2eAudio
 from TTS.tts.utils.text.tokenizer import TTSTokenizer
 output_path = os.path.dirname(os.path.abspath(__file__))
 # init configs