🎙️ Diff_Ai05: Коллекция SVC-моделей
🚀 Попробовать и создать:
📄 О моделях (для всех)
🎤 SO-VITS-SVC 4.1 (Whisper PPG Large V2)
Что это?
Одна из самых продвинутых моделей для замены голоса в пении. Она берёт эталонный голос и перекрашивает его в ваш тембр, сохраняя интонации, дыхание и эмоции.
Почему Whisper PPG Large V2?
В основе лежит нейросеть OpenAI Whisper Large V2 — она обучена на 680 000 часов речи со всего мира (98 языков). Обычно Whisper расшифровывает аудио, но в SVC мы берём его внутреннее представление звука (PPG — phonetic posteriorgram). Оно очень детальное: 1280 измерений (против типичных 256–768).
Результат: голос звучит живо, не склеивается в «пластик» и не копирует чужих певцов — только ваш характер.
Для кого?
Для тех, кто ценит реализм и готов дать модели побольше вычислительных ресурсов. Идеально для песен с эмоциональными нюансами.
🐟 Diff-SVC V2 (Fish Diffusion)
Что это?
Диффузионная модель — она работает как художник-реставратор: начинает с шума и постепенно «проявляет» чистый голос. Под капотом Fish Diffusion, специально заточенный под вокал.
Плюсы:
- Очень детальный, «дышащий» тембр
- Справляется даже с плохо вырезанными акапеллами
- Меньше артефактов на высоких нотах
🎵 DDSP-SVC 6.1 (Rectified Flow)
Что это?
Самый лёгкий и шустрый вариант. Комбинация DDSP (разлагает звук на синтезируемые компоненты) и Rectified Flow (новый умный способ учиться).
Плюсы:
- Работает даже на слабых видеокартах (например, 4–6 GB VRAM)
- Почти мгновенные инференс (обработка)
- Отличный баланс скорости и качества
🧪 О датасете и обучении голоса автора (технические детали)
Это информация только об этой конкретной модели голоса — чтобы не смешивать с общим описанием технологий.
Голос автора (Diff_Ai05 / Kedo) обучен на:
| Параметр | Значение |
|---|---|
| 🗣️ Модель | SO-VITS-SVC 4.1 (Whisper PPG Large V2) |
| 📊 Датасет | 1,259 сэмплов (очищены вручную — без шумов, пауз, посторонних звуков) |
| ⏱️ Объём сырого аудио | ≈ 2–3 часа |
| 🔁 Шагов обучения | 30,400 (полный цикл) |
| 🧠 Энкодер | Whisper PPG Large V2 (1280 dims) |
| 🎵 F0 Predictor | crepe (самый точный) |
| 📉 Финальный learning rate | 0.00001 — ювелирная подстройка, чтобы не переучить тембр |
| 🧩 Вокодер | NSF-HiFiGAN |
Результат: модель узнаваема, не сливается с датасетом, отлично передаёт манеру оригинала.
⚙️ Требования для запуска (любая модель)
- Whisper (
large-v2.pt) — для 4.1 - ContentVec (
pytorch_model.bin) — для Diff-SVC и DDSP - NSF-HiFiGAN — универсальный вокодер (нужен всем)
💎 Золотой пресет (для 4.1)
- Index Rate:
0.45 – 0.55 - F0 Predictor:
crepe - Feature Retrieval: рекомендуется
k=50–100соседей
Эти настройки дают максимум естественности.
👤 Об авторе проекта
Diff_Ai05 (также известен как Kedo / 0qwpif / ii_Senya0)
Специалист по ИИ-голосам, 3D-аниматор и вокалист. 4 года исследований в SVC.
Создано с любовью к деталям и живому звуку.
🎨 Визуальный образ (Kedo)
"Кедо — визуальное воплощение тембра и стиля проекта."
- Downloads last month
- 24