Configuration Parsing Warning:Invalid JSON for config file config.json

MagicText-1.3-ParaLSTM (ParallelLSTM) представляет собой классификатор текста (разговорный стиль/литературный стиль). Обучен на необычной архитектуре и показывет хорошие результаты классификации. Обучалась на моей новой архитектуре (доступна в python библиотеке ryann). В отличие от обычной LSTM эта архитектура имеет параллельный вентили с головами. Для лучших результатов требуется поз. кодировка, иначе это метод bow. Голова в моей архитектуре это матрица весов нейронов, в которой каждый нейрон что-то любит сильнее, а что-то нет (сигналы). Допустим, в эмбеддинге токена "Ху" (классификация мат/не мат) на позиции 2 и 69 есть большие сигналы, еоторых нет на позициях 2, 69 других токенов. То есть, голова это одно независимое мнение о токене. В моей архитектуре используется "сообщество" голов, где складываются все матричные умножения в один тензор и далее происходит деление этого тензора на количество голов и прогон через tanh как нормализацию сигналов. У нас получилась начальная память. Далее, на основе входных токенов мы делаем все то же, что и выше но уже с другими головами. И вместо Tanh у нас стоит Sigmoid для того, что бы умножить нашу память на этот тензор таким же размером, как и память. Упрощенный аналог ForgetGate в LSTM. Далее мы формируем память: усредняем всю память по первому измерению и матрично умножаем на наши веса уже других голов. Все это подаем на вход линейному слою и получаем логиты. Почему у меня сначала Input Gate, а не Forget Gate? Это сделано из-за отсутствия рекуррентности и прошлых состояний. Будет просто выгоднее поставить сначала запись информации, а потом забывание.

Downloads last month
50
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support