Russian Text Classification Model

Модель для классификации русскоязычных текстов на 15 тематических категорий, основанная на cointegrated/rubert-tiny2.

Модель

  • Архитектура: RuBERT-tiny2
  • Язык: Русский
  • Задача: Многоклассовая классификация текстов
  • Количество категорий: 15

Категории

Модель классифицирует тексты на следующие категории:

  1. Экономика
  2. Спорт
  3. Из жизни
  4. Интернет и СМИ
  5. Культура
  6. Дом
  7. Бывший СССР
  8. 69-я параллель
  9. Мир
  10. Наука и техника
  11. Путешествия
  12. Россия
  13. Нацпроекты
  14. Силовые структуры
  15. Ценности

Метрики качества

Метрика Значение
Training Loss 1.752300
Validation Loss 1.319999
Accuracy 0.679245
F1-score 0.616440

Использование

Через pipeline

from transformers import pipeline

classifier = pipeline(
    "text-classification",
    model="cointegrated/rubert-tiny2",
    tokenizer="cointegrated/rubert-tiny2"
)

# Классификация текста
text = "Ваш текст для классификации здесь"
result = classifier(text)

label_map = {
    'LABEL_0': 'Экономика',
    'LABEL_1': 'Спорт', 
    'LABEL_2': 'Из жизни',
    'LABEL_3': 'Интернет и СМИ',
    'LABEL_4': 'Культура',
    'LABEL_5': 'Дом',
    'LABEL_6': 'Бывший СССР',
    'LABEL_7': '69-я параллель',
    'LABEL_8': 'Мир',
    'LABEL_9': 'Наука и техника',
    'LABEL_10': 'Путешествия',
    'LABEL_11': 'Россия',
    'LABEL_12': 'Нацпроекты',
    'LABEL_13': 'Силовые структуры',
    'LABEL_14': 'Ценности',
}

print(f"Категория: {label_map[raw_output[0]['label']]}, Уверенность: {raw_output[0]['score']:.4f}")
Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support