🎙️ Diff_Ai05: Коллекция SVC-моделей

🚀 Попробовать и создать:

Что	Модель	Ссылка
🎧 Послушать голос автора / Сделать кавер	SO-VITS-SVC 4.1
🧠 Обучение / Продолжение / Каверы	SO-VITS-SVC 4.1
🐟 Обучение / Продолжение / Каверы	Diff-SVC V2
🎵 Обучение / Продолжение / Каверы	DDSP-SVC 6.1

📄 О моделях (для всех)

🎤 SO-VITS-SVC 4.1 (Whisper PPG Large V2)

Что это?
Одна из самых продвинутых моделей для замены голоса в пении. Она берёт эталонный голос и перекрашивает его в ваш тембр, сохраняя интонации, дыхание и эмоции.

Почему Whisper PPG Large V2?
В основе лежит нейросеть OpenAI Whisper Large V2 — она обучена на 680 000 часов речи со всего мира (98 языков). Обычно Whisper расшифровывает аудио, но в SVC мы берём его внутреннее представление звука (PPG — phonetic posteriorgram). Оно очень детальное: 1280 измерений (против типичных 256–768).
Результат: голос звучит живо, не склеивается в «пластик» и не копирует чужих певцов — только ваш характер.

Для кого?
Для тех, кто ценит реализм и готов дать модели побольше вычислительных ресурсов. Идеально для песен с эмоциональными нюансами.

🐟 Diff-SVC V2 (Fish Diffusion)

Что это?
Диффузионная модель — она работает как художник-реставратор: начинает с шума и постепенно «проявляет» чистый голос. Под капотом Fish Diffusion, специально заточенный под вокал.

Плюсы:

Очень детальный, «дышащий» тембр
Справляется даже с плохо вырезанными акапеллами
Меньше артефактов на высоких нотах

🎵 DDSP-SVC 6.1 (Rectified Flow)

Что это?
Самый лёгкий и шустрый вариант. Комбинация DDSP (разлагает звук на синтезируемые компоненты) и Rectified Flow (новый умный способ учиться).

Плюсы:

Работает даже на слабых видеокартах (например, 4–6 GB VRAM)
Почти мгновенные инференс (обработка)
Отличный баланс скорости и качества

🧪 О датасете и обучении голоса автора (технические детали)

Это информация только об этой конкретной модели голоса — чтобы не смешивать с общим описанием технологий.

Голос автора (Diff_Ai05 / Kedo) обучен на:

Параметр	Значение
🗣️ Модель	SO-VITS-SVC 4.1 (Whisper PPG Large V2)
📊 Датасет	1,259 сэмплов (очищены вручную — без шумов, пауз, посторонних звуков)
⏱️ Объём сырого аудио	≈ 2–3 часа
🔁 Шагов обучения	30,400 (полный цикл)
🧠 Энкодер	`Whisper PPG Large V2` (1280 dims)
🎵 F0 Predictor	`crepe` (самый точный)
📉 Финальный learning rate	`0.00001` — ювелирная подстройка, чтобы не переучить тембр
🧩 Вокодер	NSF-HiFiGAN

Результат: модель узнаваема, не сливается с датасетом, отлично передаёт манеру оригинала.

⚙️ Требования для запуска (любая модель)

Whisper (large-v2.pt) — для 4.1
ContentVec (pytorch_model.bin) — для Diff-SVC и DDSP
NSF-HiFiGAN — универсальный вокодер (нужен всем)

💎 Золотой пресет (для 4.1)

Index Rate: 0.45 – 0.55
F0 Predictor: crepe
Feature Retrieval: рекомендуется k=50–100 соседей
Эти настройки дают максимум естественности.

👤 Об авторе проекта

Diff_Ai05 (также известен как Kedo / 0qwpif / ii_Senya0)

Специалист по ИИ-голосам, 3D-аниматор и вокалист. 4 года исследований в SVC.

Создано с любовью к деталям и живому звуку.

🎨 Визуальный образ (Kedo)

"Кедо — визуальное воплощение тембра и стиля проекта."

Downloads last month: 8

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support