AraBERTv2 Multiclass Model
نموذج لتصنيف نصوص الدارجة الجزائرية إلى عدة فئات
تم تدريب هذا النموذج اعتمادًا على AraBERTv2 وإعادة تدريبه على بيانات متعددة الفئات لتصنيف النصوص العربية (وبالأخص الدارجة الجزائرية) ضمن عدّة تصنيفات:
- Normal
- Offensive
- Abusive
- Disrespectful
- Hateful
- Fearful
يستخدم النموذج للكشف عن الخطاب المسيء وتصفية المحتوى على منصات التواصل.
تفاصيل التدريب
| الخاصية | القيمة |
|---|---|
| النموذج الأساسي | aubmindlab/bert-base-arabertv02 |
| عدد الحقبات (epochs) | 5 |
| حجم الدفعة (batch size) | 8 |
| طول النص الأقصى | 128 |
| معدل التعلم | 2e-5 |
| optimizer | AdamW |
| خسارة التدريب | CrossEntropyLoss |
| طريقة التقسيم | train/test split بنسبة 20% |
| عدد الفئات | متعدد الفئات (multiclass) |
نتائج التقييم
| المقياس | القيمة |
|---|---|
| Accuracy | 0.6163 |
| Precision | 0.6221 |
| Recall | 0.6163 |
| F1-score | 0.6175 |
يمكنكِ إضافة نتائجك من Colab مباشرة تحت هذا الجدول.
مثال استخدام النموذج
باستخدام Transformers:
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
model_name = "safiati/arabertv2-multiclass-model"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)
text = "جايح ومش مربي"
inputs = tokenizer(text, return_tensors="pt")
with torch.no_grad():
logits = model(**inputs).logits
probs = torch.softmax(logits, dim=1)
pred_id = torch.argmax(probs).item()
print("Prediction:", model.config.id2label[pred_id])
- Downloads last month
- 4