import streamlit as st from datasets import load_dataset import numpy as np import torch import torch.nn as nn import torch.nn.functional as F from torch.utils.data import Dataset, DataLoader from transformers import AutoTokenizer from sentence_transformers import SentenceTransformer import time from datetime import datetime import json import os import pickle import re import warnings warnings.filterwarnings('ignore') # =================================================================== # 1. НАСТРОЙКИ # =================================================================== print(f"CUDA доступна: {torch.cuda.is_available()}") if torch.cuda.is_available(): print(f"GPU: {torch.cuda.get_device_name(0)}") # СВОЯ НЕЙРОСЕТЬ MODEL_NAME = "DeepPavlov/rubert-base-cased" # Для токенизации EMBEDDING_MODEL = "all-MiniLM-L6-v2" SCIENCE_DATASET = "RafaelUI/ru_science" ARTICLE_LIMIT = 200 # Для обучения MAX_LENGTH = 256 BATCH_SIZE = 16 EPOCHS = 10 LEARNING_RATE = 1e-4 AI_NAME = "OpenAirAI" COMPANY_NAME = "OpenRussianAI" CREATORS = ["Грибков Евгений", "RootLinux21"] WEBSITE = "https://sites.google.com/view/opruai/home" HUGGINGFACE = "https://huggingface.co/OpenRussianAI" CREATION_DATE = "2026" st.set_page_config( page_title=f"{AI_NAME} - Своя нейросеть", page_icon="🧠", layout="wide", initial_sidebar_state="expanded" ) # =================================================================== # 2. СВОЯ НЕЙРОСЕТЬ НА PYTORCH # =================================================================== class SimpleTransformer(nn.Module): """Своя нейросеть с нуля на PyTorch""" def __init__(self, vocab_size, embed_dim=256, num_heads=8, num_layers=4, max_length=512): super().__init__() self.embed_dim = embed_dim self.max_length = max_length # 1. Embedding слой (превращает слова в векторы) self.embedding = nn.Embedding(vocab_size, embed_dim) self.pos_encoding = nn.Parameter(torch.randn(1, max_length, embed_dim)) # 2. Слои внимания (Transformer encoder) self.attention_layers = nn.ModuleList([ nn.MultiheadAttention(embed_dim, num_heads, batch_first=True) for _ in range(num_layers) ]) # 3. FFN слои self.ffn_layers = nn.ModuleList([ nn.Sequential( nn.Linear(embed_dim, embed_dim * 4), nn.ReLU(), nn.Linear(embed_dim * 4, embed_dim) ) for _ in range(num_layers) ]) # 4. Layer Norm self.norm_layers = nn.ModuleList([ nn.LayerNorm(embed_dim) for _ in range(num_layers) ]) # 5. Выходной слой (для генерации) self.output_layer = nn.Linear(embed_dim, vocab_size) self.dropout = nn.Dropout(0.1) def forward(self, input_ids, attention_mask=None): # 1. Получаем эмбеддинги x = self.embedding(input_ids) # [batch, seq_len, embed_dim] x = x + self.pos_encoding[:, :x.size(1), :] x = self.dropout(x) # 2. Проходим через слои внимания for attn, ffn, norm in zip( self.attention_layers, self.ffn_layers, self.norm_layers ): # Attention attn_output, _ = attn(x, x, x, key_padding_mask=~attention_mask.bool()) x = x + attn_output x = norm(x) # FFN ffn_output = ffn(x) x = x + ffn_output x = norm(x) # 3. Выходной слой logits = self.output_layer(x) return logits # =================================================================== # 3. ДАТАСЕТ ДЛЯ ОБУЧЕНИЯ # =================================================================== class ScienceDataset(Dataset): """Свой датасет для обучения""" def __init__(self, articles, tokenizer, max_length=256): self.articles = articles self.tokenizer = tokenizer self.max_length = max_length def __len__(self): return len(self.articles) def __getitem__(self, idx): article = self.articles[idx] text = f"{article['title']}. {article['text']}" # Токенизация encoding = self.tokenizer( text, truncation=True, padding='max_length', max_length=self.max_length, return_tensors='pt' ) return { 'input_ids': encoding['input_ids'].squeeze(), 'attention_mask': encoding['attention_mask'].squeeze(), 'labels': encoding['input_ids'].squeeze() # Для обучения } # =================================================================== # 4. ОБУЧЕНИЕ НЕЙРОСЕТИ # =================================================================== def train_model(model, dataloader, epochs=10, lr=1e-4): """Обучение своей нейросети""" device = torch.device('cuda' if torch.cuda.is_available() else 'cpu') model = model.to(device) optimizer = torch.optim.AdamW(model.parameters(), lr=lr) criterion = nn.CrossEntropyLoss(ignore_index=0) # ignore padding losses = [] for epoch in range(epochs): total_loss = 0 progress_bar = st.progress(0) status_text = st.empty() for i, batch in enumerate(dataloader): input_ids = batch['input_ids'].to(device) attention_mask = batch['attention_mask'].to(device) labels = batch['labels'].to(device) # Forward optimizer.zero_grad() logits = model(input_ids, attention_mask) # Вычисляем loss loss = criterion( logits.view(-1, logits.size(-1)), labels.view(-1) ) # Backward loss.backward() torch.nn.utils.clip_grad_norm_(model.parameters(), 1.0) optimizer.step() total_loss += loss.item() # Обновляем прогресс progress = (i + 1) / len(dataloader) progress_bar.progress((epoch + progress) / epochs) status_text.text( f"Эпоха {epoch+1}/{epochs}, " f"Батч {i+1}/{len(dataloader)}, " f"Loss: {loss.item():.4f}" ) avg_loss = total_loss / len(dataloader) losses.append(avg_loss) st.write(f"✅ Эпоха {epoch+1}: Средний Loss = {avg_loss:.4f}") return model, losses # =================================================================== # 5. ГЕНЕРАЦИЯ ОТВЕТОВ # =================================================================== def generate_answer(model, tokenizer, query, max_length=150): """Генерация ответа своей нейросетью""" device = torch.device('cuda' if torch.cuda.is_available() else 'cpu') model.eval() with torch.no_grad(): # Токенизируем запрос encoding = tokenizer( query, truncation=True, padding='max_length', max_length=100, return_tensors='pt' ) input_ids = encoding['input_ids'].to(device) attention_mask = encoding['attention_mask'].to(device) # Генерируем ответ generated = input_ids.clone() for _ in range(max_length): logits = model(generated, attention_mask) # Берем последний токен next_token_logits = logits[:, -1, :] next_token_probs = F.softmax(next_token_logits, dim=-1) # Выбираем токен next_token = torch.multinomial(next_token_probs, num_samples=1) # Добавляем к последовательности generated = torch.cat([generated, next_token], dim=1) # Если сгенерирован токен конца if next_token.item() == tokenizer.eos_token_id: break # Декодируем response = tokenizer.decode(generated[0], skip_special_tokens=True) # Убираем запрос из ответа response = response.replace(query, "").strip() return response if response else "Извините, нейросеть не сгенерировала ответ." # =================================================================== # 6. ЗАГРУЗКА ДАННЫХ # =================================================================== @st.cache_resource def load_science_articles(): articles_file = "science_articles.pkl" if os.path.exists(articles_file): with open(articles_file, 'rb') as f: return pickle.load(f) with st.spinner("📚 Загружаю научные статьи..."): try: dataset = load_dataset(SCIENCE_DATASET, split="train", streaming=True) articles = [] for i, row in enumerate(dataset): if i >= ARTICLE_LIMIT: break text = row.get('content', '') or row.get('text', '') or str(row) title = row.get('title', f"Статья {i}") articles.append({ "id": i, "title": title[:200], "text": text[:1000], "source": "ru_science" }) with open(articles_file, 'wb') as f: pickle.dump(articles, f) return articles except Exception as e: st.error(f"Ошибка: {e}") return [] @st.cache_resource def load_embedder(): try: return SentenceTransformer(EMBEDDING_MODEL) except: return None # =================================================================== # 7. ИНТЕРФЕЙС # =================================================================== # Загрузка данных articles = load_science_articles() st.title(f"🧠 {AI_NAME} - Своя нейросеть на PyTorch") st.markdown(f"**{AI_NAME}** от **{COMPANY_NAME}** | Обучаем на **{SCIENCE_DATASET}**") # Информация о модели st.info(f"📊 **Данные:** {len(articles)} статей | **Размер модели:** 256 эмбеддингов | **Слои:** 4 Transformer") # Кнопка обучения if st.button("🚀 Обучить нейросеть с нуля"): if not articles: st.error("Нет данных для обучения!") else: # Загружаем токенизатор tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME) tokenizer.pad_token = tokenizer.eos_token # Создаем датасет dataset = ScienceDataset(articles, tokenizer, MAX_LENGTH) dataloader = DataLoader(dataset, batch_size=BATCH_SIZE, shuffle=True) # Создаем модель vocab_size = len(tokenizer) model = SimpleTransformer( vocab_size=vocab_size, embed_dim=256, num_heads=8, num_layers=4, max_length=MAX_LENGTH ) # Обучаем st.write("🧠 **Начинаем обучение...**") trained_model, losses = train_model( model, dataloader, epochs=EPOCHS, lr=LEARNING_RATE ) # Сохраняем модель torch.save(trained_model.state_dict(), "openairai_model.pth") st.success(f"✅ Модель сохранена! (потери: {losses[-1]:.4f})") st.session_state.model = trained_model st.session_state.tokenizer = tokenizer # Проверка модели if "model" in st.session_state: model = st.session_state.model tokenizer = st.session_state.tokenizer st.success("✅ Модель загружена и готова к использованию!") # Поле для вопроса query = st.text_input("🔍 Задайте вопрос нейросети:", placeholder="Например: Что такое наука?") if query: with st.spinner("🧠 Нейросеть думает..."): response = generate_answer(model, tokenizer, query) st.markdown(f"**🤖 Ответ:** {response}") else: st.warning("⚠️ Модель ещё не обучена. Нажмите кнопку выше для обучения.") # Показываем пример обучения with st.expander("📖 Как это работает?"): st.markdown(""" **Своя нейросеть на PyTorch:** 1. **Архитектура:** Transformer (4 слоя внимания) 2. **Размер:** 256 эмбеддингов 3. **Обучение:** на научных статьях 4. **Генерация:** пошаговая **Преимущества:** - Полный контроль над моделью - Можно дообучать на любых данных - Не зависит от сторонних API - Бесплатно **Недостатки:** - Требует GPU для быстрого обучения - Меньше, чем большие модели - Нужно много данных """) # --- ПОДВАЛ --- st.divider() st.caption(f"🧠 {AI_NAME} от {COMPANY_NAME} | Создан в {CREATION_DATE} | Своя нейросеть на PyTorch")