PhishGuard AI — Model za detekciju prijetnji u elektronskoj pošti / Email Threat Detection Model (Risk Edition)
PhishGuard AI je inteligentni model mašinskog učenja koji koristi prirodnojezičnu obradu (NLP) za klasifikaciju elektronskih poruka kao phishing, spam ili legitimnih. Model je razvijen i fino podešen na osnovu XLM-RoBERTa arhitekture i kombinovan sa heurističkom analizom (prepoznavanje ključnih riječi, gustoće URL-ova i strukture mejla). Cilj modela je pružiti brzu i automatsku analizu rizika e-mail poruka u kontekstu sajber bezbjednosti i edukacije.
Opis i arhitektura modela / Model Overview
Model koristi XLM-RoBERTa-Base (multijezična varijanta RoBERTa) i treniran je na datasetima koji sadrže stvarne i simulirane primjere phishing i spam poruka. Klasifikacija se zasniva na tekstualnim obrascima, kontekstu, emocionalnom tonu i ključnim riječima koje ukazuju na socijalni inženjering.
Output labele:
PHISH– lažne poruke koje imitiraju legitimne organizacije s ciljem krađe podatakaSPAM– neželjene marketinške ili promotivne porukeLEGIT– legitimne, neškodljive poruke
Skup podataka i obuka / Dataset & Training Data
Model je treniran na kombinovanom datasetu koji uključuje:
- Kaggle Phishing Email Dataset (2023)
- Prošireni skup na bosanskom, engleskom i njemačkom jeziku, prikupljen i označen ručno
- Filtrirane primjere neželjenih marketinških mejlova
Podaci su očišćeni, normalizovani, tokenizovani i podijeljeni u omjeru 80 % trening / 20 % validacija. Trening je obavljen pomoću PyTorch biblioteke i Transformers (Hugging Face) okvira.
Parametri obuke / Training Hyperparameters
| Parametar | Vrijednost / Value |
|---|---|
| Broj epoha | 3 |
| Batch veličina | 16 |
| Learning rate | 2e-5 |
| Optimizator | AdamW (weight decay 0.01) |
| Scheduler | Linear |
| GPU | NVIDIA T4 (Google Colab Pro) |
Rezultati evaluacije / Evaluation Metrics
| Metrika | Vrijednost / Value |
|---|---|
| Loss | 0.0812 |
| Accuracy | 0.9677 |
| Precision | 0.9649 |
| Recall | 0.9701 |
| F1 Score | 0.9674 |
Model pokazuje visoku preciznost i odziv kod identifikacije phishing poruka (preko 96 %), uz minimalnu stopu lažnih pozitivnih rezultata (ispod 2 %). Najveći broj grešaka dešava se kod poruka koje su po strukturi vrlo slične legitimnim obavještenjima.
Integracija s PhishGuard AI aplikacijom / Integration with App
Model je implementiran unutar web aplikacije PhishGuard AI – Risk Edition, koja omogućava:
- učitavanje
.emlfajlova - automatsko izvlačenje sadržaja, URL-ova i pošiljaoca
- NLP analizu putem modela
- heurističko bodovanje i vizualizaciju doprinosa (AI vs Heuristika)
Integracija s heuristikom / Heuristic Integration
Aplikacija kombinuje rezultate modela i heurističke funkcije:
- AI analiza (semantička detekcija phishing sadržaja)
- Heuristika (broj URL-ova, ključne riječi, obrasci sumnjivog ponašanja)
- Kombinovani rizik = 60 % NLP + 40 % heuristika
Rezultat je vizualizovan kroz grafikon koji prikazuje doprinos oba pristupa.
Prednosti / Model Strengths
Multijezična podrška (B/H/S, engleski, njemački) Visoka preciznost i brzina obrade Može se koristiti lokalno bez interneta Kombinacija AI i heuristike povećava tačnost Edukativna i istraživačka primjena
Ograničenja / Limitations
- Ne analizira zaglavlja (SPF, DKIM, DMARC) ni priloge
- Oslanja se na tekstualni sadržaj mejla
- Neki mejlovi s minimalnim sadržajem mogu proizvesti neodređene rezultate
- Hugging Face Spaces sandbox ne dozvoljava vanjske API pozive (VirusTotal, AbuseIPDB)
Projekat i upotreba / Project Context
PhishGuard AI je kreiran kao u sklopu diplomskog rada na temu ML u Pythonu i je dio većeg istraživačkog projekta S.AF.E — Security Awareness for Families & Education, usmjerenog na edukaciju i prevenciju digitalnih prijetnji u BiH kroz praktične alate i podizanje svijesti o sajber bezbjednosti. Model se koristi i u verziji za lokalnu analizu (offline), koja uključuje reputacione servise VirusTotal i AbuseIPDB.
Citat / Citation
Mujanović, M. (2025). PhishGuard AI – Risk Edition: Multijezični NLP model za detekciju prijetnji u elektronskoj pošti. Hugging Face Model Repository. https://huggingface.co/MujMej/phishguard-ai
Etički aspekt / Ethical Use
Model je razvijen isključivo za edukativne i defanzivne svrhe u oblasti sajber bezbjednosti. Zabranjeno je korištenje u svrhe napada, masovnog skeniranja ili distribucije phishing sadržaja. Svi podaci korišteni u treningu su javno dostupni i ne sadrže lične informacije.
📬 Kontakt / Contact
Autor / Author: Mejra Mujanović Projekat / Project: S.AF.E — Security Awareness for Families & Education Email: [email protected] Model: https://huggingface.co/MujMej/phishguard-ai
- Downloads last month
- 41
Model tree for MujMej/phishguard-ai
Base model
FacebookAI/xlm-roberta-base