0% Complete
فارسی
Home
/
شانزدهمین کنفرانس بین المللی فناوری اطلاعات و دانش
Robustness Gap in NLP Models for Vulnerability Descriptions: Benchmarking and Data Augmentation
Authors :
AmirHossein Majd
1
Mahdi Yousefikia
2
Saghar Ghasemzadeh
3
Amirreza Asari
4
Arya Khoshnavataher
5
Seyedeh Leili Mirtaheri
6
1- University of Calabria
2- دانشگاه خوارزمی
3- دانشگاه خوارزمی
4- دانشگاه خوارزمی
5- دانشگاه خوارزمی
6- University of Calabria
Keywords :
Software Vulnerabilities،Natural Language Processing،Robustness Benchmark،Noise Injection،Exploitability Prediction،Data Augmentation،Cybersecurity
Abstract :
Software vulnerability descriptions from CVE/NVD are the primary corpus for analysis, prioritization, and risk management in cybersecurity. Yet natural noise (typos, synonym substitutions, lexical variety) and adversarial perturbations undermine the accuracy and trustworthiness of NLP models. This paper presents, to our knowledge, the first systematic benchmark of NLP robustness on vulnerability descriptions. We train nine diverse architectures—lightweight transformers (MiniLM, MPNet, SBERT), hybrid models (BERT-LSTM, TextRCNN), and classical recurrent networks (BiLSTM, LSTM)—on a balanced dataset of over 56,000 real-world records from NVD and Exploit-DB, and fine-tune them for exploitability prediction. For comprehensive evaluation, we inject three noise families into test sets at levels from 10% to 80%: character-level edits (substitutions/swaps), synonym replacements using WordNet, and composite adversarial attacks generated with TextAttack. Performance declines across all models as noise rises, but vulnerability profiles differ: MiniLM attains the strongest clean-data score (F1 ≈ 0.933) yet is most brittle under character noise, whereas TextRCNN, despite a lower baseline, preserves comparatively higher stability in heavily perturbed conditions. Finally, we test a pragmatic hardening strategy—data augmentation with noisy variants followed by retraining—which consistently narrows robustness gaps across architectures without materially sacrificing clean-data accuracy. The benchmark and code enable reproducible evaluation and future robust modeling in cybersecurity.
Papers List
List of archived papers
چارچوب پیشبینی خرابی تطبیقی مبتنی بر شبکه عصبی گراف پویا و GRU در سامانههای صنعتی IIoT
رسول اسماعیلی فرد - لیلا رنجبر
SecVanet: provably secure authentication protocol for sending emergency events in VANET
Seyed Amir Mousavi - Mohammad Sadeq Sirjani - Seyyed Javad Bozorg zadeh Razavi - Morteza Nikooghadam
Attention-Enhanced Ensemble Learning for Automated Stenosis Detection in X-ray Coronary Angiography Videos
Marzieh Sadat Hosseini - Ahmad R. Naghsh-Nilchi - Mehran Safayani - Masoumeh Sadeghi
Predictive Maintenance using LSTM and Adaptive Windowing
Aien Ghanbari Adivi - Behrouz Shahgholi Ghahfarokhi
A Novel Resource Allocation Scheme for Underlaying NOMA-Based Multi-Channel Cognitive D2D Communications
Anahita Akbari - Dr Javad Zeraatkar Moghaddam - Dr Mehrdad Ardebilipour
نقش دادههای آنلاین یونیفرمیتی و تحلیل آماری پیشرفته با ترکیب پایتون و پاوربیآی در بهبود کیفیت و فرآیند تولید تایر
دانیال قادری
طراحی نرم افزاری مبتنی بر واقعیت افزوده با کاربرد فروش عینک
مینا علیانژاد - نسترن زنجانی - زهرا عسکری نژاد امیری
ارائه یک مدل جهت تخصیص منابع به توابع مجازی شبکه (VNF) باهدف حفظ درجه تعادل بار در شبکه های چند دامنه ای مبتنی بر نرمافزار(multi-SDN)
امین زنداقطاعی - دکتر وحید ستاری نائینی امین زنداقطاعی - وحید ستاری نائینی -
FiReT: A Neural Radiance Fields Framework for Wireless Field Reconstruction and Transmitter Placement
Negar Pouya - Armin Soleymani - Gholamreza Moradi - Farzaneh Abdollahi
رویکرد تطبیقی-ترکیبی در پیادهسازی مشارکت الکترونیکی پایدار: درسآموختههای بینالمللی و مدل پیشنهادی ایران
عاطفه فرازمند - فاطمه پاک مهر
more
Samin Hamayesh - Version 43.8.0