Spaces:

Vishinka
/

Code_LLM

Running

App Files Files Community

AnatoliiG commited on 1 day ago

Commit

f314e13

1 Parent(s): b41467e

fix web search bug

Browse files

Files changed (2) hide show

src/ui/callbacks.py +33 -49
src/ui/components.py +0 -2

src/ui/callbacks.py CHANGED Viewed

@@ -1,8 +1,8 @@
 import os
 import gradio as gr
-import PyPDF2  # Для нормального чтения PDF
-from duckduckgo_search import DDGS  # Официальная библиотека поиска
 from src.core.engine import engine
 from src.utils.helpers import get_clean_text
@@ -29,15 +29,9 @@ def set_interactive(is_interactive):
 def web_search(query: str, max_results: int = 3) -> list:
-    """
-    Чистый и надежный поиск через API duckduckgo-search.
-    Никаких костылей с регулярками и парсингом HTML.
-    """
     try:
         with DDGS() as ddgs:
-            # DDGS возвращает генератор, конвертируем в список
             results = list(ddgs.text(query, max_results=max_results))
             formatted_results = []
             for r in results:
                 formatted_results.append(
@@ -59,16 +53,12 @@ def bot_response(
     messages = [{"role": "system", "content": system_prompt}]
     file_info, file_content = "", ""
-    # ==========================================
-    # 1. УМНОЕ ЧТЕНИЕ ФАЙЛОВ (Исправлен баг с PDF)
-    # ==========================================
     if uploaded_file and os.path.exists(uploaded_file):
         filename = os.path.basename(uploaded_file)
         size_kb = os.path.getsize(uploaded_file) / 1024
         file_info = f"📎 **Файл прочитан:** `{filename}` ({size_kb:.1f} KB)"
         try:
-            # Если это PDF - используем PyPDF2
             if filename.lower().endswith(".pdf"):
                 with open(uploaded_file, "rb") as f:
                     pdf_reader = PyPDF2.PdfReader(f)
@@ -76,7 +66,6 @@ def bot_response(
                         page.extract_text() or "" for page in pdf_reader.pages
                     ]
                     file_content = "\n".join(text_parts)[:40000]
-            # Иначе читаем как обычный текст
             else:
                 with open(uploaded_file, "r", encoding="utf-8", errors="ignore") as f:
                     file_content = f.read(40000)
@@ -86,9 +75,6 @@ def bot_response(
         except Exception as e:
             file_info = f"❌ **Ошибка файла:** `{filename}` ({e})"
-    # ==========================================
-    # 2. ФОРМИРОВАНИЕ ИСТОРИИ
-    # ==========================================
     for msg in history[-7:]:
         messages.append(
             {"role": msg["role"], "content": get_clean_text(msg["content"])}
@@ -97,17 +83,13 @@ def bot_response(
     history.append({"role": "assistant", "content": "⏳ Инициализация..."})
     yield history
-    # ==========================================
-    # 3. АГЕНТСКИЙ ВЕБ-ПОИСК (LLM ДУМАЕТ САМА)
-    # ==========================================
     search_info = ""
     if use_search:
         history[-1]["content"] = (
             file_info + "\n" if file_info else ""
-        ) + "🤔 Агент анализирует необходимость поиска..."
         yield history
-        # Скрытый "внутренний диалог" LLM: просим ее саму написать запрос
         agent_messages = [
             {
                 "role": "system",
@@ -119,37 +101,41 @@ def bot_response(
             }
         ]
-        # Даем агенту последние 3 сообщения, чтобы он понял контекст разговора
         for msg in history[-3:]:
             if msg["role"] == "user":
                 agent_messages.append({"role": "user", "content": msg["content"]})
         try:
-            # Делаем быстрый, скрытый запрос к модели (stream=False)
             eval_response = engine.generate(
-                messages=agent_messages,
-                max_tokens=20,
-                temperature=0.1,  # Низкая температура, чтобы Агент не фантазировал, а был точным
-                stream=False,
             )
-            generated_query = eval_response["choices"][0]["message"]["content"].strip()
-            generated_query = generated_query.replace('"', "").replace(
-                "'", ""
-            )  # Очищаем запрос от случайных кавычек
-            # Если Агент решил, что поиск нужен
-            if generated_query and "NO_SEARCH" not in generated_query.upper():
-                search_info = f'🌐 Агент ищет: *"{generated_query}"*...'
                 history[-1]["content"] = (
                     f"{file_info + '\n' if file_info else ''}{search_info}"
                 )
                 yield history
-                search_results = web_search(generated_query)
                 if search_results:
-                    search_info = f'🌐 Найдено {len(search_results)} результатов по запросу *"{generated_query}"*'
                     search_context = (
                         "СВЕЖИЕ РЕЗУЛЬТАТЫ ПОИСКА ИЗ ИНТЕРНЕТА ДЛЯ ТВОЕГО ОТВЕТА:\n\n"
@@ -157,22 +143,18 @@ def bot_response(
                     for i, r in enumerate(search_results, 1):
                         search_context += f"{i}. {r['title']} ({r['url']})\nСниппет: {r['snippet']}\n\n"
-                    # Незаметно подсовываем результаты в системный промпт основной модели
                     messages.append({"role": "system", "content": search_context})
                 else:
                     search_info = (
-                        f'🌐 Поиск по запросу *"{generated_query}"* не дал результатов.'
                     )
             else:
-                search_info = "⚡ Агент решил отвечать на основе собственных знаний (поиск не потребовался)."
         except Exception as e:
             print(f"Ошибка при логике Агента: {e}")
-            pass  # Если скрытый запрос упал, просто продолжаем стандартную генерацию без поиска
-    # ==========================================
-    # 4. ИНЖЕКТ ФАЙЛА В КОНТЕКСТ
-    # ==========================================
     if file_content:
         messages.append(
             {
@@ -181,7 +163,6 @@ def bot_response(
             }
         )
-    # Формируем красивую плашку статуса перед финальным ответом
     status_header = (file_info + "\n" if file_info else "") + (
         search_info + "\n" if search_info else ""
     )
@@ -191,9 +172,6 @@ def bot_response(
     history[-1]["content"] = status_header + "⏳ Генерация ответа..."
     yield history
-    # ==========================================
-    # 5. СТРИМИНГ ФИНАЛЬНОГО ОТВЕТА
-    # ==========================================
     try:
         stream = engine.generate(
             messages=messages,
@@ -206,8 +184,14 @@ def bot_response(
             delta = chunk["choices"][0].get("delta", {})
             if delta.get("content"):
                 partial_text += delta["content"]
-                # Показываем текст под плашкой статусов
-                history[-1]["content"] = status_header + partial_text
                 yield history
     except Exception as e:
         history[-1]["content"] = status_header + f"\n\n❌ Ошибка: {str(e)}"

 import os
 import gradio as gr
+import PyPDF2
+from duckduckgo_search import DDGS
 from src.core.engine import engine
 from src.utils.helpers import get_clean_text
 def web_search(query: str, max_results: int = 3) -> list:
     try:
         with DDGS() as ddgs:
             results = list(ddgs.text(query, max_results=max_results))
             formatted_results = []
             for r in results:
                 formatted_results.append(
     messages = [{"role": "system", "content": system_prompt}]
     file_info, file_content = "", ""
     if uploaded_file and os.path.exists(uploaded_file):
         filename = os.path.basename(uploaded_file)
         size_kb = os.path.getsize(uploaded_file) / 1024
         file_info = f"📎 **Файл прочитан:** `{filename}` ({size_kb:.1f} KB)"
         try:
             if filename.lower().endswith(".pdf"):
                 with open(uploaded_file, "rb") as f:
                     pdf_reader = PyPDF2.PdfReader(f)
                         page.extract_text() or "" for page in pdf_reader.pages
                     ]
                     file_content = "\n".join(text_parts)[:40000]
             else:
                 with open(uploaded_file, "r", encoding="utf-8", errors="ignore") as f:
                     file_content = f.read(40000)
         except Exception as e:
             file_info = f"❌ **Ошибка файла:** `{filename}` ({e})"
     for msg in history[-7:]:
         messages.append(
             {"role": msg["role"], "content": get_clean_text(msg["content"])}
     history.append({"role": "assistant", "content": "⏳ Инициализация..."})
     yield history
     search_info = ""
     if use_search:
         history[-1]["content"] = (
             file_info + "\n" if file_info else ""
+        ) + "🤔 Агент анализирует запрос..."
         yield history
         agent_messages = [
             {
                 "role": "system",
             }
         ]
         for msg in history[-3:]:
             if msg["role"] == "user":
                 agent_messages.append({"role": "user", "content": msg["content"]})
         try:
+            # Увеличиваем лимит токенов до 512, чтобы Reasoning-модель успела подумать
             eval_response = engine.generate(
+                messages=agent_messages, max_tokens=512, temperature=0.1, stream=False
             )
+            raw_query = eval_response["choices"][0]["message"]["content"].strip()
+            # ФИЛЬТРУЕМ ТЕГИ <think>
+            if "</think>" in raw_query:
+                # Берем всё, что модель написала ПОСЛЕ окончания размышлений
+                clean_query = raw_query.split("</think>")[-1].strip()
+            elif raw_query.startswith("<think>"):
+                # Если тег не закрылся из-за лимита токенов, отменяем поиск
+                clean_query = "NO_SEARCH"
+            else:
+                clean_query = raw_query.strip()
+            clean_query = clean_query.replace('"', "").replace("'", "")
+            if clean_query and "NO_SEARCH" not in clean_query.upper():
+                search_info = f'🌐 Ищем: *"{clean_query}"*...'
                 history[-1]["content"] = (
                     f"{file_info + '\n' if file_info else ''}{search_info}"
                 )
                 yield history
+                search_results = web_search(clean_query)
                 if search_results:
+                    search_info = f'🌐 Найдено {len(search_results)} результатов по запросу *"{clean_query}"*'
                     search_context = (
                         "СВЕЖИЕ РЕЗУЛЬТАТЫ ПОИСКА ИЗ ИНТЕРНЕТА ДЛЯ ТВОЕГО ОТВЕТА:\n\n"
                     for i, r in enumerate(search_results, 1):
                         search_context += f"{i}. {r['title']} ({r['url']})\nСниппет: {r['snippet']}\n\n"
                     messages.append({"role": "system", "content": search_context})
                 else:
                     search_info = (
+                        f'🌐 Поиск по запросу *"{clean_query}"* не дал результатов.'
                     )
             else:
+                search_info = "⚡ Агент ответит из своих знаний (поиск не нужен)."
         except Exception as e:
             print(f"Ошибка при логике Агента: {e}")
+            pass
     if file_content:
         messages.append(
             {
             }
         )
     status_header = (file_info + "\n" if file_info else "") + (
         search_info + "\n" if search_info else ""
     )
     history[-1]["content"] = status_header + "⏳ Генерация ответа..."
     yield history
     try:
         stream = engine.generate(
             messages=messages,
             delta = chunk["choices"][0].get("delta", {})
             if delta.get("content"):
                 partial_text += delta["content"]
+                # КРАСИВЫЙ UI-ФИЛЬТР ДЛЯ ФИНАЛЬНОГО ОТВЕТА
+                # Превращаем <think> в красивый блок цитаты
+                display_text = partial_text.replace(
+                    "<think>", "*(🤔 Внутренние размышления модели:)*\n> "
+                ).replace("</think>", "\n\n")
+                history[-1]["content"] = status_header + display_text
                 yield history
     except Exception as e:
         history[-1]["content"] = status_header + f"\n\n❌ Ошибка: {str(e)}"

src/ui/components.py CHANGED Viewed

@@ -1,5 +1,3 @@
-# src/ui/components.py (или где у вас находится функция create_ui)
 import gradio as gr
 from src.core.config import settings




1	import gradio as gr
2
3	from src.core.config import settings