Spaces:

Humair332
/

vae

Sleeping

App Files Files Community

Humair332 commited on Apr 17

Commit

545efe4

verified ·

1 Parent(s): a070ef9

Create app.py

Browse files

Files changed (1) hide show

app.py +108 -0

app.py ADDED Viewed

	@@ -0,0 +1,108 @@

+import gradio as gr
+import torch
+import numpy as np
+import soundfile as sf
+from scipy.signal import resample
+# import your codec
+from irodori_tts.codec import DACVAECodec
+# =============================
+# LOAD MODEL
+# =============================
+DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
+codec = DACVAECodec.load(
+    repo_id="Aratako/Semantic-DACVAE-Japanese-32dim",
+    device=DEVICE,
+)
+# =============================
+# AUDIO UTILS (NO TORCHAUDIO)
+# =============================
+def load_audio(path):
+    audio, sr = sf.read(path, dtype="float32")
+    # convert to mono
+    if audio.ndim > 1:
+        audio = np.mean(audio, axis=1)
+    return audio, sr
+def resample_audio(audio, orig_sr, target_sr):
+    if orig_sr == target_sr:
+        return audio
+    num_samples = int(len(audio) * target_sr / orig_sr)
+    return resample(audio, num_samples)
+def to_tensor(audio):
+    return torch.from_numpy(audio).unsqueeze(0).unsqueeze(0)  # (1,1,T)
+# =============================
+# ENCODE
+# =============================
+def encode_audio(file):
+    audio, sr = load_audio(file)
+    # resample
+    audio = resample_audio(audio, sr, codec.sample_rate)
+    wav = to_tensor(audio).to(DEVICE)
+    latent = codec.encode_waveform(wav, codec.sample_rate)
+    return latent.cpu().numpy()
+# =============================
+# DECODE
+# =============================
+def decode_audio(latent_np):
+    latent = torch.tensor(latent_np).to(DEVICE)
+    if latent.ndim == 2:
+        latent = latent.unsqueeze(0)
+    audio = codec.decode_latent(latent)
+    audio = audio.squeeze().cpu().numpy()
+    return (codec.sample_rate, audio)
+# =============================
+# GRADIO UI
+# =============================
+with gr.Blocks() as demo:
+    gr.Markdown("## 🎧 DACVAE Audio Codec (SoundFile Version)")
+    with gr.Tab("Encode"):
+        audio_in = gr.Audio(type="filepath")
+        latent_out = gr.Textbox(label="Latent (numpy array)")
+        btn_encode = gr.Button("Encode")
+        btn_encode.click(encode_audio, inputs=audio_in, outputs=latent_out)
+    with gr.Tab("Decode"):
+        latent_in = gr.Textbox(label="Paste latent numpy array")
+        audio_out = gr.Audio()
+        def decode_from_text(text):
+            latent = np.array(eval(text))
+            return decode_audio(latent)
+        btn_decode = gr.Button("Decode")
+        btn_decode.click(decode_from_text, inputs=latent_in, outputs=audio_out)
+# =============================
+# RUN
+# =============================
+if __name__ == "__main__":
+    demo.launch()