Configuration Parsing Warning:Invalid JSON for config file config.json

🔥 1320 downloads in 48 hours. Thank you, ML community!

Character LSTM Model

Model Description

Это компактная рекуррентная нейросеть на базе LSTM для генерации или классификации последовательностей на уровне отдельных символов (character-level). Модель принимает на вход последовательность индексов токенов и возвращает логиты для следующего символа.

Модель предназначена для дообучения под свой текст. Основную грамматику она уже знает хорошо. Обучалась на русских сказках.

Model Architecture

Компонент Параметры
Embedding 230 → 256 dims
LSTM 1 слой, 256 → 512, dropout=0.3 (не используется на 1м слое), batch_first=True
Linear (head) 512 → 230 (vocab size)

Всего ~~230.000 параметров

Модель использует только последний выход LSTM (x[:, -1, :]), что делает её пригодной для:

  • Предсказания следующего символа по контексту
  • Классификации последовательности целиком

seq_len = 100

Пример генерации:

Prompt: Что ж, двинемся, - сказала грибная борода. Спасибо, – почему-то сказал Кофта. Ответ: Что ж, двинемся, - сказала грибная борода. Спасибо, – почему-то сказал Кофта.!– Нет, – пробормотал Моховая Борода. – Не стоял на него не слышать на свежие и продолжать!

image

Downloads last month
5,178
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support