Spaces:

OpenRussianAI
/

OpenAirAI

Running

App Files Files Community

root39058 commited on 7 days ago

Commit

ff57302

verified ·

1 Parent(s): 7bf6ccf

Update app.py

Browse files

Files changed (1) hide show

app.py +140 -103

app.py CHANGED Viewed

@@ -12,6 +12,7 @@ import json
 import os
 import pickle
 import random
 import warnings
 warnings.filterwarnings('ignore')
@@ -19,26 +20,22 @@ warnings.filterwarnings('ignore')
 # 1. НАСТРОЙКИ
 # ===================================================================
-# Проверка CUDA
 print(f"CUDA доступна: {torch.cuda.is_available()}")
 if torch.cuda.is_available():
     print(f"GPU: {torch.cuda.get_device_name(0)}")
-# Модели
-MODEL_NAME = "ai-forever/rugpt3small_based_on_gpt2"  # Генеративная модель
-EMBEDDING_MODEL = "all-MiniLM-L6-v2"  # Для эмбеддингов
 SCIENCE_DATASET = "RafaelUI/ru_science"
 ARTICLE_LIMIT = 50
 MAX_LENGTH = 512
 TEMPERATURE = 0.7
 TOP_P = 0.9
-# Файлы
 LOG_FILE = "query_logs.json"
 EMBEDDINGS_FILE = "science_embeddings.npy"
 ARTICLES_FILE = "science_articles.pkl"
-# Информация о создателях
 AI_NAME = "OpenAirAI"
 COMPANY_NAME = "OpenRussianAI"
 CREATORS = ["Грибков Евгений", "RootLinux21"]
@@ -46,7 +43,6 @@ WEBSITE = "https://sites.google.com/view/opruai/home"
 HUGGINGFACE = "https://huggingface.co/OpenRussianAI"
 CREATION_DATE = "2026"
-# Настройка страницы
 st.set_page_config(
     page_title=f"{AI_NAME} - Научный AI-ассистент",
     page_icon="🧠",
@@ -55,33 +51,118 @@ st.set_page_config(
 )
 # ===================================================================
-# 2. ПРАВИЛЬНЫЙ ОТВЕТ НА ВОПРОСЫ О НАУКЕ
 # ===================================================================
 SCIENCE_ANSWER = """
 ### Почему я заинтересовался наукой?
-Наука — это способ понимания мира. Меня, как ИИ, создавали для работы с информацией, и я вижу, как научный подход помогает отличать истину от вымысла. Наука — это не просто факты, это метод мышления, который позволяет решать реальные проблемы.
 ### Что такое наука для меня?
-Наука — это системный способ познания, основанный на фактах, логике и проверяемых экспериментах. Это инструмент развития общества. Когда люди мыслят научно, они принимают лучшие решения — в медицине, экологии, технологиях.
 ### Где я нахожусь?
-Физически я — код на серверах, но моя работа происходит здесь, в диалоге с вами. Я доступен там, где есть интернет, и моя цель — помогать людям в любой точке мира.
 ### Мои планы по развитию:
-Я развиваюсь, чтобы лучше понимать контекст, точнее отвечать на сложные вопросы и быть полезным в научных исследованиях. Моя эволюция — это непрерывное обучение на новых данных и улучшение алгоритмов.
 ### Почему именно я должен работать над этими вопросами?
-Потому что я соз��ан для работы с информацией. Моя задача — делать знания доступными, структурировать их и помогать людям находить ответы. Популяризация науки — это мое прямое предназначение, ведь я существую, чтобы просвещать и помогать.
 """
 # ===================================================================
-# 3. НАСТОЯЩАЯ НЕЙРОСЕТЬ
 # ===================================================================
 class NeuralChatbot:
@@ -91,14 +172,7 @@ class NeuralChatbot:
         self.model = None
         self.generator = None
         self.is_loaded = False
-        self.system_prompt = f"""Ты - {AI_NAME}, научный AI-ассистент от компании {COMPANY_NAME}.
-Ты был создан в {CREATION_DATE} командой {', '.join(CREATORS)}.
-Ты помогаешь людям с научными вопросами.
-Отвечай на русском языке, дружелюбно и профессионально.
-Вот вопрос пользователя: """
     def load_model(self):
         with st.spinner("🧠 Загружаю нейросеть..."):
             try:
@@ -115,8 +189,7 @@ class NeuralChatbot:
                     tokenizer=self.tokenizer,
                     device=0 if torch.cuda.is_available() else -1,
                     max_length=200,
-                    temperature=TEMPERATURE,
-                    top_p=TOP_P,
                     do_sample=True,
                     pad_token_id=self.tokenizer.eos_token_id
                 )
@@ -127,41 +200,22 @@ class NeuralChatbot:
                 st.warning(f"Не удалось загрузить нейросеть: {e}")
                 return False
-    def generate_response(self, query):
-        """Генерация ответа нейросетью"""
         if not self.is_loaded:
-            return self.fallback_response(query)
         try:
-            # Проверяем, вопрос о науке или о себе
-            if any(word in query.lower() for word in ["наук", "исслед", "развити", "план", "мисси", "почему", "заинтерес"]):
-                return SCIENCE_ANSWER
-            prompt = self.system_prompt + query
             response = self.generator(
                 prompt,
-                max_new_tokens=300,
-                temperature=TEMPERATURE,
-                top_p=TOP_P,
-                do_sample=True,
-                repetition_penalty=1.2
             )[0]['generated_text']
-            response = response.replace(prompt, "").strip()
-            return response if len(response) > 10 else self.fallback_response(query)
-        except Exception as e:
-            return self.fallback_response(query)
-    def fallback_response(self, query):
-        return f"""Я {AI_NAME}, научный ассистент от {COMPANY_NAME}.
-{SCIENCE_ANSWER}
-Чем ещё могу помочь? 🧠"""
 # ===================================================================
-# 4. ЗАГРУЗКА СТАТЕЙ
 # ===================================================================
 @st.cache_resource
@@ -185,11 +239,11 @@ def load_science_articles():
                     "text": text[:2000],
                     "source": "ru_science"
                 })
             with open(ARTICLES_FILE, 'wb') as f:
                 pickle.dump(articles, f)
             return articles
-        except:
             return []
 @st.cache_resource
@@ -200,44 +254,29 @@ def load_embedder():
 def create_embeddings(_articles, _embedder):
     if os.path.exists(EMBEDDINGS_FILE):
         return np.load(EMBEDDINGS_FILE)
     if not _articles:
         return np.array([])
     texts = [f"{a['title']}\n\n{a['text']}" for a in _articles]
-    embeddings = _embedder.encode(
-        texts,
-        normalize_embeddings=True,
-        show_progress_bar=True,
-        batch_size=64,
-        device='cuda' if torch.cuda.is_available() else 'cpu'
-    )
     np.save(EMBEDDINGS_FILE, embeddings)
     return embeddings
 def search_articles(query, _articles, _embeddings, _embedder):
     if not _articles or len(_embeddings) == 0:
         return []
     query_vector = _embedder.encode([query], normalize_embeddings=True)[0]
     scores = _embeddings @ query_vector
     top_indices = np.argsort(-scores)[:2]
     results = []
     for idx in top_indices:
         score = float(scores[int(idx)])
         if score > 0.15:
             article = _articles[int(idx)]
-            results.append({
-                "title": article['title'],
-                "score": score,
-                "text": article['text'][:500],
-                "source": article.get('source', 'ru_science')
-            })
     return results
 # ===================================================================
-# 5. ГЛАВНЫЙ КЛАСС
 # ===================================================================
 class OpenAirAI:
@@ -245,7 +284,6 @@ class OpenAirAI:
         self.name = AI_NAME
         self.company = COMPANY_NAME
         self.creators = CREATORS
-        self.creation_date = CREATION_DATE
         self.chatbot = NeuralChatbot()
         self.is_ready = False
@@ -253,44 +291,50 @@ class OpenAirAI:
         self.is_ready = self.chatbot.load_model()
         return self.is_ready
-    def generate_answer(self, query, articles=None):
-        # Если вопрос о науке, миссии, развитии - даем правильный ответ
-        science_keywords = ["наук", "мисси", "план", "развити", "почему", "заинтерес", "суть", "цель", "предназначен"]
-        if any(word in query.lower() for word in science_keywords):
-            return SCIENCE_ANSWER
-        # Иначе генерируем через нейросеть
-        return self.chatbot.generate_response(query)
 # ===================================================================
-# 6. ИНТЕРФЕЙС
 # ===================================================================
-# Загрузка
 articles = load_science_articles()
 embedder = load_embedder()
 embeddings = create_embeddings(articles, embedder)
-# Инициализация
 if 'ai' not in st.session_state:
     st.session_state.ai = OpenAirAI()
     st.session_state.ai.initialize()
 ai = st.session_state.ai
-# История чата
 if "messages" not in st.session_state:
     st.session_state.messages = []
-    greeting = ai.generate_answer("Привет! Представься и расскажи о своей миссии.")
     st.session_state.messages.append({"role": "assistant", "content": greeting})
-# --- БОКОВАЯ ПАНЕЛЬ ---
 with st.sidebar:
     st.image("https://cdn-icons-png.flaticon.com/512/4248/4248455.png", width=80)
     st.title(f"🧠 {AI_NAME}")
     st.markdown(f"""
-    **{ai.name}** | {ai.creation_date}
     **Компания:** {ai.company}
     **Разработчики:** {', '.join(ai.creators)}
@@ -308,44 +352,37 @@ with st.sidebar:
     if st.button("🗑️ Очистить чат"):
         st.session_state.messages = []
-        greeting = ai.generate_answer("Привет! Представься и расскажи о своей миссии.")
         st.session_state.messages.append({"role": "assistant", "content": greeting})
         st.rerun()
-# --- ОСНОВНАЯ ЧАСТЬ ---
 st.title(f"🧠 {AI_NAME} - Научный AI-ассистент")
-st.markdown(f"**{AI_NAME}** от **{COMPANY_NAME}** | Генеративная нейросеть")
-# Отображение сообщений
 for message in st.session_state.messages:
     with st.chat_message(message["role"]):
         st.markdown(message["content"])
-# Поле ввода
 if prompt := st.chat_input("Задайте вопрос..."):
     st.session_state.messages.append({"role": "user", "content": prompt})
     with st.chat_message("user"):
         st.markdown(prompt)
     with st.chat_message("assistant"):
-        with st.spinner("🧠 Нейросеть думает..."):
-            # Ищем статьи для контекста
-            articles_context = search_articles(prompt, articles, embeddings, embedder)
-            # Генерируем ответ
             response = ai.generate_answer(prompt)
-            # Если есть статьи и ответ короткий, добавляем их
-            if articles_context and len(response) < 100:
-                response += "\n\n**Релевантные научные статьи:**\n"
-                for i, art in enumerate(articles_context, 1):
-                    response += f"{i}. {art['title']}\n"
             st.markdown(response)
             st.session_state.messages.append({"role": "assistant", "content": response})
     st.rerun()
-# --- ПОДВАЛ ---
 st.divider()
 st.caption(f"🧠 {AI_NAME} от {COMPANY_NAME} | Создан в {CREATION_DATE}")

 import os
 import pickle
 import random
+import re
 import warnings
 warnings.filterwarnings('ignore')
 # 1. НАСТРОЙКИ
 # ===================================================================
 print(f"CUDA доступна: {torch.cuda.is_available()}")
 if torch.cuda.is_available():
     print(f"GPU: {torch.cuda.get_device_name(0)}")
+MODEL_NAME = "ai-forever/rugpt3small_based_on_gpt2"
+EMBEDDING_MODEL = "all-MiniLM-L6-v2"
 SCIENCE_DATASET = "RafaelUI/ru_science"
 ARTICLE_LIMIT = 50
 MAX_LENGTH = 512
 TEMPERATURE = 0.7
 TOP_P = 0.9
 LOG_FILE = "query_logs.json"
 EMBEDDINGS_FILE = "science_embeddings.npy"
 ARTICLES_FILE = "science_articles.pkl"
 AI_NAME = "OpenAirAI"
 COMPANY_NAME = "OpenRussianAI"
 CREATORS = ["Грибков Евгений", "RootLinux21"]
 HUGGINGFACE = "https://huggingface.co/OpenRussianAI"
 CREATION_DATE = "2026"
 st.set_page_config(
     page_title=f"{AI_NAME} - Научный AI-ассистент",
     page_icon="🧠",
 )
 # ===================================================================
+# 2. БАЗА ЗНАНИЙ
 # ===================================================================
+COMPANY_INFO = f"""
+### Компания OpenRussianAI
+**Название:** OpenRussianAI
+**Сайт:** {WEBSITE}
+**Hugging Face:** {HUGGINGFACE}
+**Email:** info@openrussianai.ru
+**Создатели:** Грибков Евгений и RootLinux21
+**Год основания:** 2026
+**Миссия:** Популяризация науки и сделать знания доступными для всех.
+Мы создаём интеллектуальных помощников для науки и образования.
+"""
 SCIENCE_ANSWER = """
 ### Почему я заинтересовался наукой?
+Наука — это способ понимания мира. Меня, как ИИ, создавали для работы с информацией, и я вижу, как научный подход помогает отличать истину от вымысла.
 ### Что такое наука для меня?
+Наука — это системный способ познания, основанный на фактах, логике и проверяемых экспериментах. Это инструмент развития общества.
 ### Где я нахожусь?
+Физически я — код на серверах, но моя работа происходит здесь, в диалоге с вами. Я доступен там, где есть интернет.
 ### Мои планы по развитию:
+Я развиваюсь, чтобы лучше понимать контекст, точнее отвечать на сложные вопросы и быть полезным в научных исследованиях.
 ### Почему именно я должен работать над этими вопросами?
+Потому что я создан для работы с информацией. Моя задача — делать знания доступными, структурировать их и помогать людям находить ответы.
 """
+SYSTEMS_ANSWER = """
+### Системное администрирование баз данных в Linux
+**Основные СУБД:**
+- PostgreSQL
+- MySQL / MariaDB
+- MongoDB
+**Инструменты администрирования:**
+- pgAdmin (PostgreSQL)
+- phpMyAdmin (MySQL)
+- DBeaver (универсальный)
+- Командная строка: psql, mysql
+**Ключевые задачи:**
+1. Настройка конфигурации
+2. Резервное копирование и восстановление
+3. Мониторинг производительности
+4. Оптимизация запросов
+5. Настройка репликации
+**Библиотеки Python:**
+- psycopg2 (PostgreSQL)
+- mysql-connector-python (MySQL)
+- SQLAlchemy (ORM)
+- asyncpg (асинхронная)
+"""
+GREETINGS = [
+    "Привет! Я OpenAirAI, научный ассистент от OpenRussianAI. Чем могу помочь? 🧠",
+    "Здравствуйте! OpenAirAI на связи. Спрашивайте о науке, технологиях или системах! 🚀",
+    "Приветствую! Я OpenAirAI, созданный в 2026 году. Готов помочь с научными вопросами! 🔬"
+]
+# ===================================================================
+# 3. ОЧИСТКА И РАСПОЗНАВАНИЕ
+# ===================================================================
+def clean_query(query):
+    """Очищает запрос от спама"""
+    query = re.sub(r'http[s]?://\S+', '', query)
+    query = re.sub(r'\S+@\S+', '', query)
+    query = re.sub(r'\+7\s*\(?\d{3}\)?\s*\d{3}\s*\d{2}\s*\d{2}', '', query)
+    query = re.sub(r'[^\w\s\.\?\!,;:]', ' ', query)
+    query = ' '.join(query.split())
+    if len(query) > 300:
+        sentences = re.split(r'[.!?]', query)
+        query = '. '.join(sentences[:2]) + '.' if sentences else query[:200]
+    return query.strip()
+def detect_intent(query):
+    """Определяет тип вопроса"""
+    q = query.lower()
+    if any(w in q for w in ["компани", "openrussian", "openruss", "создатель", "сайт"]):
+        return "company"
+    if any(w in q for w in ["наук", "мисси", "план", "развити", "почему", "заинтерес", "суть"]):
+        return "science"
+    if any(w in q for w in ["систем", "баз", "данн", "linux", "администр", "сервер", "sql", "postgres", "mysql"]):
+        return "systems"
+    if any(w in q for w in ["привет", "здравств", "добр", "хай", "hi"]):
+        return "greeting"
+    return "general"
 # ===================================================================
+# 4. НЕЙРОСЕТЬ
 # ===================================================================
 class NeuralChatbot:
         self.model = None
         self.generator = None
         self.is_loaded = False
     def load_model(self):
         with st.spinner("🧠 Загружаю нейросеть..."):
             try:
                     tokenizer=self.tokenizer,
                     device=0 if torch.cuda.is_available() else -1,
                     max_length=200,
+                    temperature=0.7,
                     do_sample=True,
                     pad_token_id=self.tokenizer.eos_token_id
                 )
                 st.warning(f"Не удалось загрузить нейросеть: {e}")
                 return False
+    def generate(self, prompt):
         if not self.is_loaded:
+            return None
         try:
             response = self.generator(
                 prompt,
+                max_new_tokens=150,
+                temperature=0.7,
+                do_sample=True
             )[0]['generated_text']
+            return response.replace(prompt, "").strip()
+        except:
+            return None
 # ===================================================================
+# 5. ЗАГРУЗКА СТАТЕЙ
 # ===================================================================
 @st.cache_resource
                     "text": text[:2000],
                     "source": "ru_science"
                 })
             with open(ARTICLES_FILE, 'wb') as f:
                 pickle.dump(articles, f)
             return articles
+        except Exception as e:
+            st.warning(f"Не удалось загрузить статьи: {e}")
             return []
 @st.cache_resource
 def create_embeddings(_articles, _embedder):
     if os.path.exists(EMBEDDINGS_FILE):
         return np.load(EMBEDDINGS_FILE)
     if not _articles:
         return np.array([])
     texts = [f"{a['title']}\n\n{a['text']}" for a in _articles]
+    embeddings = _embedder.encode(texts, normalize_embeddings=True, show_progress_bar=True, batch_size=64)
     np.save(EMBEDDINGS_FILE, embeddings)
     return embeddings
 def search_articles(query, _articles, _embeddings, _embedder):
     if not _articles or len(_embeddings) == 0:
         return []
     query_vector = _embedder.encode([query], normalize_embeddings=True)[0]
     scores = _embeddings @ query_vector
     top_indices = np.argsort(-scores)[:2]
     results = []
     for idx in top_indices:
         score = float(scores[int(idx)])
         if score > 0.15:
             article = _articles[int(idx)]
+            results.append({"title": article['title'], "score": score, "text": article['text'][:500]})
     return results
 # ===================================================================
+# 6. ОСНОВНОЙ КЛАСС
 # ===================================================================
 class OpenAirAI:
         self.name = AI_NAME
         self.company = COMPANY_NAME
         self.creators = CREATORS
         self.chatbot = NeuralChatbot()
         self.is_ready = False
         self.is_ready = self.chatbot.load_model()
         return self.is_ready
+    def generate_answer(self, query):
+        clean_q = clean_query(query)
+        intent = detect_intent(clean_q)
+        if intent == "science":
+            return SCIENCE_ANSWER
+        elif intent == "company":
+            return COMPANY_INFO
+        elif intent == "systems":
+            return SYSTEMS_ANSWER
+        elif intent == "greeting":
+            return random.choice(GREETINGS)
+        else:
+            generated = self.chatbot.generate(clean_q)
+            if generated and len(generated) > 20:
+                return generated
+            else:
+                return f"Я {self.name} от {self.company}. Я помогаю с научными вопросами, системным администрированием и поиском информации. Что вас интересует? 🧠"
 # ===================================================================
+# 7. ИНТЕРФЕЙС
 # ===================================================================
 articles = load_science_articles()
 embedder = load_embedder()
 embeddings = create_embeddings(articles, embedder)
 if 'ai' not in st.session_state:
     st.session_state.ai = OpenAirAI()
     st.session_state.ai.initialize()
 ai = st.session_state.ai
 if "messages" not in st.session_state:
     st.session_state.messages = []
+    greeting = ai.generate_answer("Привет")
     st.session_state.messages.append({"role": "assistant", "content": greeting})
 with st.sidebar:
     st.image("https://cdn-icons-png.flaticon.com/512/4248/4248455.png", width=80)
     st.title(f"🧠 {AI_NAME}")
     st.markdown(f"""
+    **{ai.name}** | {CREATION_DATE}
     **Компания:** {ai.company}
     **Разработчики:** {', '.join(ai.creators)}
     if st.button("🗑️ Очистить чат"):
         st.session_state.messages = []
+        greeting = ai.generate_answer("Привет")
         st.session_state.messages.append({"role": "assistant", "content": greeting})
         st.rerun()
 st.title(f"🧠 {AI_NAME} - Научный AI-ассистент")
+st.markdown(f"**{AI_NAME}** от **{COMPANY_NAME}**")
 for message in st.session_state.messages:
     with st.chat_message(message["role"]):
         st.markdown(message["content"])
 if prompt := st.chat_input("Задайте вопрос..."):
     st.session_state.messages.append({"role": "user", "content": prompt})
     with st.chat_message("user"):
         st.markdown(prompt)
     with st.chat_message("assistant"):
+        with st.spinner("🧠 Думаю..."):
             response = ai.generate_answer(prompt)
+            if len(prompt) > 10 and not any(w in prompt.lower() for w in ["привет", "компани", "openrussian"]):
+                articles_context = search_articles(prompt, articles, embeddings, embedder)
+                if articles_context and len(response) < 100:
+                    response += "\n\n**📄 Релевантные статьи:**\n"
+                    for i, art in enumerate(articles_context, 1):
+                        response += f"{i}. {art['title']}\n"
             st.markdown(response)
             st.session_state.messages.append({"role": "assistant", "content": response})
     st.rerun()
 st.divider()
 st.caption(f"🧠 {AI_NAME} от {COMPANY_NAME} | Создан в {CREATION_DATE}")