PhishGuard AI Banner

PhishGuard AI — Model za detekciju prijetnji u elektronskoj pošti / Email Threat Detection Model (Risk Edition)

PhishGuard AI je inteligentni model mašinskog učenja koji koristi prirodnojezičnu obradu (NLP) za klasifikaciju elektronskih poruka kao phishing, spam ili legitimnih. Model je razvijen i fino podešen na osnovu XLM-RoBERTa arhitekture i kombinovan sa heurističkom analizom (prepoznavanje ključnih riječi, gustoće URL-ova i strukture mejla). Cilj modela je pružiti brzu i automatsku analizu rizika e-mail poruka u kontekstu sajber bezbjednosti i edukacije.


Opis i arhitektura modela / Model Overview

Model koristi XLM-RoBERTa-Base (multijezična varijanta RoBERTa) i treniran je na datasetima koji sadrže stvarne i simulirane primjere phishing i spam poruka. Klasifikacija se zasniva na tekstualnim obrascima, kontekstu, emocionalnom tonu i ključnim riječima koje ukazuju na socijalni inženjering.

Output labele:

  • PHISH – lažne poruke koje imitiraju legitimne organizacije s ciljem krađe podataka
  • SPAM – neželjene marketinške ili promotivne poruke
  • LEGIT – legitimne, neškodljive poruke

Skup podataka i obuka / Dataset & Training Data

Model je treniran na kombinovanom datasetu koji uključuje:

  • Kaggle Phishing Email Dataset (2023)
  • Prošireni skup na bosanskom, engleskom i njemačkom jeziku, prikupljen i označen ručno
  • Filtrirane primjere neželjenih marketinških mejlova

Podaci su očišćeni, normalizovani, tokenizovani i podijeljeni u omjeru 80 % trening / 20 % validacija. Trening je obavljen pomoću PyTorch biblioteke i Transformers (Hugging Face) okvira.


Parametri obuke / Training Hyperparameters

Parametar Vrijednost / Value
Broj epoha 3
Batch veličina 16
Learning rate 2e-5
Optimizator AdamW (weight decay 0.01)
Scheduler Linear
GPU NVIDIA T4 (Google Colab Pro)

Rezultati evaluacije / Evaluation Metrics

Metrika Vrijednost / Value
Loss 0.0812
Accuracy 0.9677
Precision 0.9649
Recall 0.9701
F1 Score 0.9674

Model pokazuje visoku preciznost i odziv kod identifikacije phishing poruka (preko 96 %), uz minimalnu stopu lažnih pozitivnih rezultata (ispod 2 %). Najveći broj grešaka dešava se kod poruka koje su po strukturi vrlo slične legitimnim obavještenjima.


Integracija s PhishGuard AI aplikacijom / Integration with App

Model je implementiran unutar web aplikacije PhishGuard AI – Risk Edition, koja omogućava:

  • učitavanje .eml fajlova
  • automatsko izvlačenje sadržaja, URL-ova i pošiljaoca
  • NLP analizu putem modela
  • heurističko bodovanje i vizualizaciju doprinosa (AI vs Heuristika)

🔗 Online demo on Hugging Face Space


Integracija s heuristikom / Heuristic Integration

Aplikacija kombinuje rezultate modela i heurističke funkcije:

  • AI analiza (semantička detekcija phishing sadržaja)
  • Heuristika (broj URL-ova, ključne riječi, obrasci sumnjivog ponašanja)
  • Kombinovani rizik = 60 % NLP + 40 % heuristika

Rezultat je vizualizovan kroz grafikon koji prikazuje doprinos oba pristupa.


Prednosti / Model Strengths

Multijezična podrška (B/H/S, engleski, njemački) Visoka preciznost i brzina obrade Može se koristiti lokalno bez interneta Kombinacija AI i heuristike povećava tačnost Edukativna i istraživačka primjena


Ograničenja / Limitations

  • Ne analizira zaglavlja (SPF, DKIM, DMARC) ni priloge
  • Oslanja se na tekstualni sadržaj mejla
  • Neki mejlovi s minimalnim sadržajem mogu proizvesti neodređene rezultate
  • Hugging Face Spaces sandbox ne dozvoljava vanjske API pozive (VirusTotal, AbuseIPDB)

Projekat i upotreba / Project Context

PhishGuard AI je kreiran kao u sklopu diplomskog rada na temu ML u Pythonu i je dio većeg istraživačkog projekta S.AF.E — Security Awareness for Families & Education, usmjerenog na edukaciju i prevenciju digitalnih prijetnji u BiH kroz praktične alate i podizanje svijesti o sajber bezbjednosti. Model se koristi i u verziji za lokalnu analizu (offline), koja uključuje reputacione servise VirusTotal i AbuseIPDB.


Citat / Citation

Mujanović, M. (2025). PhishGuard AI – Risk Edition: Multijezični NLP model za detekciju prijetnji u elektronskoj pošti. Hugging Face Model Repository. https://huggingface.co/MujMej/phishguard-ai


Etički aspekt / Ethical Use

Model je razvijen isključivo za edukativne i defanzivne svrhe u oblasti sajber bezbjednosti. Zabranjeno je korištenje u svrhe napada, masovnog skeniranja ili distribucije phishing sadržaja. Svi podaci korišteni u treningu su javno dostupni i ne sadrže lične informacije.


📬 Kontakt / Contact

Autor / Author: Mejra Mujanović Projekat / Project: S.AF.E — Security Awareness for Families & Education Email: [email protected] Model: https://huggingface.co/MujMej/phishguard-ai

Downloads last month
41
Safetensors
Model size
0.3B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for MujMej/phishguard-ai

Finetuned
(3598)
this model

Space using MujMej/phishguard-ai 1