Spaces:

marry1908
/

topic-classification

Sleeping

App Files Files Community

marry1908 commited on Feb 6

Commit

0e70707

verified ·

1 Parent(s): 31550e9

Update app.py

Browse files

Files changed (1) hide show

app.py +83 -28

app.py CHANGED Viewed

@@ -1,17 +1,22 @@
 import gradio as gr
-from transformers import pipeline
 import time
 import pandas as pd
 from datetime import datetime
 import numpy as np
-# Загружаем модель для тематической классификации
-# Используем zero-shot классификатор, который не требует предобучения на конкретных темах
-classifier = pipeline("zero-shot-classification",
-                      model="facebook/bart-large-mnli",
-                      device=-1)  # device=-1 означает CPU
-# Предопределённые темы для классификации (можно менять и добавлять)
 PREDEFINED_TOPICS = [
     "спорт", "политика", "наука", "технологии",
     "здоровье", "образование", "культура", "экономика",
@@ -34,9 +39,36 @@ TOPIC_DESCRIPTIONS = {
     "происшествия": "🚨 Происшествия"
 }
-# История запросов
-history = []
-MAX_HISTORY = 10
 def classify_topic(text, show_top_n=3):
     """Классифицирует текст по темам"""
@@ -52,25 +84,45 @@ def classify_topic(text, show_top_n=3):
         # Измеряем время выполнения
         start_time = time.time()
-        # Тематическая классификация с помощью zero-shot модели
-        results = classifier(
-            text,
-            candidate_labels=PREDEFINED_TOPICS,
-            multi_label=False  # Одна основная тема
-        )
         elapsed_time = time.time() - start_time
         # Форматируем результаты
         output_text = f"📊 **Тематическая классификация:**\n\n"
-        # Получаем списки тем и оценок
-        labels = results['labels']
-        scores = results['scores']
-        # Сортируем по убыванию оценок и берем топ-N
-        sorted_indices = np.argsort(scores)[::-1][:show_top_n]
         for i, idx in enumerate(sorted_indices, 1):
             topic = labels[idx]
             score = scores[idx] * 100
@@ -186,9 +238,12 @@ with gr.Blocks(title="Тематический классификатор тек
     gr.Markdown("---")
     with gr.Accordion("📚 Подробная информация о модели", open=False):
         gr.Markdown("""
-        **Используемая модель:** `facebook/bart-large-mnli`
-        **Тип модели:** Zero-shot классификатор (не требует предварительного обучения на определённых темах)
         **Определяемые темы:**
         - 🏀 **Спорт** - спортивные события, соревнования, команды
@@ -205,9 +260,9 @@ with gr.Blocks(title="Тематический классификатор тек
         - 🚨 **Происшествия** - аварии, криминал
         **Технические детали:**
-        - Модель на основе BART Large
         - Поддерживает 12 предопределённых тем
-        - Работает на CPU за 2-5 секунд
         - Поддерживает тексты до 2000 символов
         """)
@@ -218,7 +273,7 @@ with gr.Blocks(title="Тематический классификатор тек
     2. Поддерживает русский и английский языки
     3. Может определять только одну основную тему
     4. Для сложных текстов может потребоваться ручная проверка
-    5. Точность: ~75-80% на новостных текстах
     """)
 if __name__ == "__main__":

 import gradio as gr
 import time
 import pandas as pd
 from datetime import datetime
 import numpy as np
+# Импортируем transformers с обработкой ошибок
+try:
+    from transformers import pipeline
+    transformers_available = True
+except ImportError:
+    transformers_available = False
+    print("Transformers not available, using mock mode")
+# История запросов
+history = []
+MAX_HISTORY = 10
+# Предопределённые темы для классификации
 PREDEFINED_TOPICS = [
     "спорт", "политика", "наука", "технологии",
     "здоровье", "образование", "культура", "экономика",
     "происшествия": "🚨 Происшествия"
 }
+# Простая эвристическая классификация (запасной вариант)
+def simple_classifier(text, topics):
+    """Простой классификатор на основе ключевых слов"""
+    text_lower = text.lower()
+    scores = []
+    # Ключевые слова для каждой темы
+    keywords = {
+        "спорт": ["матч", "игра", "команда", "победил", "счёт", "футбол", "хоккей", "соревнование"],
+        "политика": ["президент", "правительство", "закон", "выборы", "парламент", "министр", "депутат"],
+        "наука": ["учёный", "исследование", "открытие", "лаборатория", "эксперимент", "научный"],
+        "технологии": ["компьютер", "смартфон", "интернет", "программа", "гаджет", "робот", "искусственный интеллект"],
+        "здоровье": ["врач", "больница", "лечение", "болезнь", "пациент", "медицина", "здоровый"],
+        "образование": ["школа", "университет", "студент", "учитель", "экзамен", "урок", "образование"],
+        "культура": ["фильм", "музыка", "театр", "выставка", "художник", "писатель", "книга"],
+        "экономика": ["деньги", "банк", "компания", "рынок", "цена", "экономика", "финансы"],
+        "путешествия": ["отпуск", "отель", "пляж", "горы", "путешествие", "турист", "страна"],
+        "развлечения": ["кино", "сериал", "игра", "концерт", "развлечение", "отдых"],
+        "погода": ["температура", "дождь", "снег", "солнце", "погода", "климат", "ветер"],
+        "происшествия": ["авария", "пожар", "происшествие", "инцидент", "катастрофа", "чрезвычайная ситуация"]
+    }
+    for topic in topics:
+        score = 0
+        for keyword in keywords.get(topic, []):
+            if keyword in text_lower:
+                score += 1
+        scores.append(score / max(len(keywords.get(topic, [])), 1))
+    return scores
 def classify_topic(text, show_top_n=3):
     """Классифицирует текст по темам"""
         # Измеряем время выполнения
         start_time = time.time()
+        # Пытаемся использовать трансформеры, если доступны
+        if transformers_available:
+            try:
+                # ПРОБУЕМ ЛЁГКУЮ МОДЕЛЬ ДЛЯ РУССКОГО ЯЗЫКА
+                classifier = pipeline("zero-shot-classification",
+                                     model="MoritzLaurer/mDeBERTa-v3-base-mnli-xnli",
+                                     device=-1)
+                results = classifier(
+                    text,
+                    candidate_labels=PREDEFINED_TOPICS,
+                    multi_label=False
+                )
+                labels = results['labels']
+                scores = results['scores']
+            except Exception as model_error:
+                # Если не получилось с трансформерами, используем простой классификатор
+                print(f"Model error: {model_error}, using simple classifier")
+                scores = simple_classifier(text, PREDEFINED_TOPICS)
+                labels = PREDEFINED_TOPICS
+        else:
+            # Если трансформеры не установлены
+            scores = simple_classifier(text, PREDEFINED_TOPICS)
+            labels = PREDEFINED_TOPICS
         elapsed_time = time.time() - start_time
+        # Сортируем результаты
+        if isinstance(scores, list):
+            sorted_indices = np.argsort(scores)[::-1][:show_top_n]
+        else:
+            # Если scores уже numpy array
+            sorted_indices = scores.argsort()[::-1][:show_top_n]
         # Форматируем результаты
         output_text = f"📊 **Тематическая классификация:**\n\n"
         for i, idx in enumerate(sorted_indices, 1):
             topic = labels[idx]
             score = scores[idx] * 100
     gr.Markdown("---")
     with gr.Accordion("📚 Подробная информация о модели", open=False):
         gr.Markdown("""
+        **Используемая модель:** `MoritzLaurer/mDeBERTa-v3-base-mnli-xnli`
+        **Почему эта модель:**
+        - **Лёгкая** (300 МБ вместо 1.6 ГБ)
+        - **Мультиязычная** с хорошей поддержкой русского
+        - **Быстро загружается** на бесплатном CPU
         **Определяемые темы:**
         - 🏀 **Спорт** - спортивные события, соревнования, команды
         - 🚨 **Происшествия** - аварии, криминал
         **Технические детали:**
+        - Модель на основе DeBERTa-v3
         - Поддерживает 12 предопределённых тем
+        - Работает на CPU за 1-3 секунды
         - Поддерживает тексты до 2000 символов
         """)
     2. Поддерживает русский и английский языки
     3. Может определять только одну основную тему
     4. Для сложных текстов может потребоваться ручная проверка
+    5. Точность: ~70-80% на новостных текстах
     """)
 if __name__ == "__main__":