AraBERTv2 Multiclass Model

نموذج لتصنيف نصوص الدارجة الجزائرية إلى عدة فئات

تم تدريب هذا النموذج اعتمادًا على AraBERTv2 وإعادة تدريبه على بيانات متعددة الفئات لتصنيف النصوص العربية (وبالأخص الدارجة الجزائرية) ضمن عدّة تصنيفات:

Normal
Offensive
Abusive
Disrespectful
Hateful
Fearful

يستخدم النموذج للكشف عن الخطاب المسيء وتصفية المحتوى على منصات التواصل.

تفاصيل التدريب

الخاصية	القيمة
النموذج الأساسي	`aubmindlab/bert-base-arabertv02`
عدد الحقبات (epochs)	5
حجم الدفعة (batch size)	8
طول النص الأقصى	128
معدل التعلم	2e-5
optimizer	AdamW
خسارة التدريب	CrossEntropyLoss
طريقة التقسيم	train/test split بنسبة 20%
عدد الفئات	متعدد الفئات (multiclass)

نتائج التقييم

المقياس	القيمة
Accuracy	0.6163
Precision	0.6221
Recall	0.6163
F1-score	0.6175

يمكنكِ إضافة نتائجك من Colab مباشرة تحت هذا الجدول.

مثال استخدام النموذج

باستخدام Transformers:

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

model_name = "safiati/arabertv2-multiclass-model"

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

text = "جايح ومش مربي"
inputs = tokenizer(text, return_tensors="pt")

with torch.no_grad():
    logits = model(**inputs).logits
    probs = torch.softmax(logits, dim=1)
    pred_id = torch.argmax(probs).item()

print("Prediction:", model.config.id2label[pred_id])

Downloads last month: 4

Safetensors

Model size

0.1B params

Tensor type

F32