🎙️ Diff_Ai05: Коллекция SVC-моделей

🚀 Попробовать и создать:

Что Модель Ссылка
🎧 Послушать голос автора / Сделать кавер SO-VITS-SVC 4.1 Open In Colab
🧠 Обучение / Продолжение / Каверы SO-VITS-SVC 4.1 Open In Colab
🐟 Обучение / Продолжение / Каверы Diff-SVC V2 Open In Colab
🎵 Обучение / Продолжение / Каверы DDSP-SVC 6.1 Open In Colab

📄 О моделях (для всех)

🎤 SO-VITS-SVC 4.1 (Whisper PPG Large V2)

Что это?
Одна из самых продвинутых моделей для замены голоса в пении. Она берёт эталонный голос и перекрашивает его в ваш тембр, сохраняя интонации, дыхание и эмоции.

Почему Whisper PPG Large V2?
В основе лежит нейросеть OpenAI Whisper Large V2 — она обучена на 680 000 часов речи со всего мира (98 языков). Обычно Whisper расшифровывает аудио, но в SVC мы берём его внутреннее представление звука (PPG — phonetic posteriorgram). Оно очень детальное: 1280 измерений (против типичных 256–768).
Результат: голос звучит живо, не склеивается в «пластик» и не копирует чужих певцов — только ваш характер.

Для кого?
Для тех, кто ценит реализм и готов дать модели побольше вычислительных ресурсов. Идеально для песен с эмоциональными нюансами.

🐟 Diff-SVC V2 (Fish Diffusion)

Что это?
Диффузионная модель — она работает как художник-реставратор: начинает с шума и постепенно «проявляет» чистый голос. Под капотом Fish Diffusion, специально заточенный под вокал.

Плюсы:

  • Очень детальный, «дышащий» тембр
  • Справляется даже с плохо вырезанными акапеллами
  • Меньше артефактов на высоких нотах

🎵 DDSP-SVC 6.1 (Rectified Flow)

Что это?
Самый лёгкий и шустрый вариант. Комбинация DDSP (разлагает звук на синтезируемые компоненты) и Rectified Flow (новый умный способ учиться).

Плюсы:

  • Работает даже на слабых видеокартах (например, 4–6 GB VRAM)
  • Почти мгновенные инференс (обработка)
  • Отличный баланс скорости и качества

🧪 О датасете и обучении голоса автора (технические детали)

Это информация только об этой конкретной модели голоса — чтобы не смешивать с общим описанием технологий.

Голос автора (Diff_Ai05 / Kedo) обучен на:

Параметр Значение
🗣️ Модель SO-VITS-SVC 4.1 (Whisper PPG Large V2)
📊 Датасет 1,259 сэмплов (очищены вручную — без шумов, пауз, посторонних звуков)
⏱️ Объём сырого аудио ≈ 2–3 часа
🔁 Шагов обучения 30,400 (полный цикл)
🧠 Энкодер Whisper PPG Large V2 (1280 dims)
🎵 F0 Predictor crepe (самый точный)
📉 Финальный learning rate 0.00001 — ювелирная подстройка, чтобы не переучить тембр
🧩 Вокодер NSF-HiFiGAN

Результат: модель узнаваема, не сливается с датасетом, отлично передаёт манеру оригинала.


⚙️ Требования для запуска (любая модель)

  • Whisper (large-v2.pt) — для 4.1
  • ContentVec (pytorch_model.bin) — для Diff-SVC и DDSP
  • NSF-HiFiGAN — универсальный вокодер (нужен всем)

💎 Золотой пресет (для 4.1)

  • Index Rate: 0.45 – 0.55
  • F0 Predictor: crepe
  • Feature Retrieval: рекомендуется k=50–100 соседей
    Эти настройки дают максимум естественности.

👤 Об авторе проекта

Diff_Ai05 (также известен как Kedo / 0qwpif / ii_Senya0)

Специалист по ИИ-голосам, 3D-аниматор и вокалист. 4 года исследований в SVC.

Создано с любовью к деталям и живому звуку.


🎨 Визуальный образ (Kedo)


"Кедо — визуальное воплощение тембра и стиля проекта."

Downloads last month
24
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support