Configuration Parsing Warning:Invalid JSON for config file config.json
🔥 1320 downloads in 48 hours. Thank you, ML community!
Character LSTM Model
Model Description
Это компактная рекуррентная нейросеть на базе LSTM для генерации или классификации последовательностей на уровне отдельных символов (character-level). Модель принимает на вход последовательность индексов токенов и возвращает логиты для следующего символа.
Модель предназначена для дообучения под свой текст. Основную грамматику она уже знает хорошо. Обучалась на русских сказках.
Model Architecture
| Компонент | Параметры |
|---|---|
| Embedding | 230 → 256 dims |
| LSTM | 1 слой, 256 → 512, dropout=0.3 (не используется на 1м слое), batch_first=True |
| Linear (head) | 512 → 230 (vocab size) |
Всего ~~230.000 параметров
Модель использует только последний выход LSTM (x[:, -1, :]), что делает её пригодной для:
- Предсказания следующего символа по контексту
- Классификации последовательности целиком
seq_len = 100
Пример генерации:
Prompt: Что ж, двинемся, - сказала грибная борода. Спасибо, – почему-то сказал Кофта. Ответ: Что ж, двинемся, - сказала грибная борода. Спасибо, – почему-то сказал Кофта.!– Нет, – пробормотал Моховая Борода. – Не стоял на него не слышать на свежие и продолжать!
- Downloads last month
- 5,178
