Initial conversion from stabilityai/stable-audio-open-small via scripts/checkpoint_conversion/stable_audio_to_diffusers.py

Files changed (7) hide show

conditioner/config.json ADDED Viewed

+{
+  "_class_name": "StableAudioMultiConditioner",
+  "cond_dim": 768,
+  "configs": [
+    {
+      "id": "prompt",
+      "type": "t5",
+      "config": {
+        "t5_model_name": "t5-base",
+        "max_length": 64
+      }
+    },
+    {
+      "id": "seconds_total",
+      "type": "number",
+      "config": {
+        "min_val": 0,
+        "max_val": 256
+      }
+    }
+  ]
+}

conditioner/diffusion_pytorch_model.safetensors ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:ad2433cfd09378c04b1f9208cdb181f731ff245303d5ac61de7cfe096f79274d
+size 793440

model_index.json ADDED Viewed

+{
+  "_class_name": "StableAudioPipeline",
+  "_fastvideo_converted_from": "stabilityai/stable-audio-open-small",
+  "transformer": [
+    "fastvideo.models.dits.stable_audio",
+    "StableAudioDiT"
+  ],
+  "vae": [
+    "fastvideo.models.vaes.oobleck",
+    "OobleckVAE"
+  ],
+  "conditioner": [
+    "fastvideo.models.encoders.stable_audio_conditioner",
+    "StableAudioMultiConditioner"
+  ]
+}

transformer/config.json ADDED Viewed

+{
+  "_class_name": "StableAudioDiT",
+  "io_channels": 64,
+  "embed_dim": 1024,
+  "depth": 16,
+  "num_heads": 8,
+  "cond_token_dim": 768,
+  "global_cond_dim": 768,
+  "transformer_type": "continuous_transformer",
+  "attn_kwargs": {
+    "qk_norm": "ln"
+  },
+  "cross_attention_cond_ids": [
+    "prompt",
+    "seconds_total"
+  ],
+  "global_cond_ids": [
+    "seconds_total"
+  ]
+}

transformer/diffusion_pytorch_model.safetensors ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:ab05de76714f37cd664d653094ce4b985deddfb6916b76090aa18a030f2829fb
+size 1363757944

vae/config.json ADDED Viewed

+{
+  "_class_name": "OobleckVAE",
+  "io_channels": 2,
+  "latent_dim": 64,
+  "downsampling_ratio": 2048,
+  "encoder_config": {
+    "in_channels": 2,
+    "channels": 128,
+    "c_mults": [
+      1,
+      2,
+      4,
+      8,
+      16
+    ],
+    "strides": [
+      2,
+      4,
+      4,
+      8,
+      8
+    ],
+    "latent_dim": 128,
+    "use_snake": true
+  },
+  "decoder_config": {
+    "out_channels": 2,
+    "channels": 128,
+    "c_mults": [
+      1,
+      2,
+      4,
+      8,
+      16
+    ],
+    "strides": [
+      2,
+      4,
+      4,
+      8,
+      8
+    ],
+    "latent_dim": 64,
+    "use_snake": true,
+    "final_tanh": false
+  }
+}

vae/diffusion_pytorch_model.safetensors ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:2fca83fabbdd3cb7dc97b83e2c43aedc5d64ddb00da8771e3af6c86e19e07249
+size 312265524