AraBERTv2 Multiclass Model

نموذج لتصنيف نصوص الدارجة الجزائرية إلى عدة فئات

تم تدريب هذا النموذج اعتمادًا على AraBERTv2 وإعادة تدريبه على بيانات متعددة الفئات لتصنيف النصوص العربية (وبالأخص الدارجة الجزائرية) ضمن عدّة تصنيفات:

  • Normal
  • Offensive
  • Abusive
  • Disrespectful
  • Hateful
  • Fearful

يستخدم النموذج للكشف عن الخطاب المسيء وتصفية المحتوى على منصات التواصل.


تفاصيل التدريب

الخاصية القيمة
النموذج الأساسي aubmindlab/bert-base-arabertv02
عدد الحقبات (epochs) 5
حجم الدفعة (batch size) 8
طول النص الأقصى 128
معدل التعلم 2e-5
optimizer AdamW
خسارة التدريب CrossEntropyLoss
طريقة التقسيم train/test split بنسبة 20%
عدد الفئات متعدد الفئات (multiclass)

نتائج التقييم

المقياس القيمة
Accuracy 0.6163
Precision 0.6221
Recall 0.6163
F1-score 0.6175

يمكنكِ إضافة نتائجك من Colab مباشرة تحت هذا الجدول.


مثال استخدام النموذج

باستخدام Transformers:

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

model_name = "safiati/arabertv2-multiclass-model"

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

text = "جايح ومش مربي"
inputs = tokenizer(text, return_tensors="pt")

with torch.no_grad():
    logits = model(**inputs).logits
    probs = torch.softmax(logits, dim=1)
    pred_id = torch.argmax(probs).item()

print("Prediction:", model.config.id2label[pred_id])
Downloads last month
4
Safetensors
Model size
0.1B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support