0% Complete
English
صفحه اصلی
/
شانزدهمین کنفرانس بین المللی فناوری اطلاعات و دانش
An LLM-Based Approach for Clarifying the Decisions of Vision Models in Autonomous Vehicles
نویسندگان :
Omid Mosalmani
1
Mohammad Javad Rashti
2
Seyed Enayat Alavi
3
1- دانشگاه شهید چمران اهواز
2- دانشگاه شهید چمران اهواز
3- دانشگاه شهید چمران اهواز
کلمات کلیدی :
Explainable AI،Prompt Engineering،Large Language Models،Autonomous Vehicles،Textual Explanation
چکیده :
With the increasing utilization of autonomous vehicles, the transparency and explainability of their decisions have become crucial for gaining user trust and enhancing road safety. Current textual explanation methods rely on limited datasets, leading to repetitive and superficial explanations. This research presents a hybrid system where the ADAPT decision-making model is used to predict driving actions, and its attention maps serve as an interface between visual data and the explanation module. Subsequently, large language models, from the Gemini and GPT families, receive the final decision, the attention map, and a carefully designed prompt to generate concise and understandable textual explanations. The primary innovation of this approach lies in combining the decision-making model with LLMs, leveraging their extensive knowledge beyond the constraints of training data to enable the generation of more precise and diverse explanations. The system is evaluated on the BDD-X dataset and measured against standard captioning metrics including BLEU-4, METEOR, ROUGE-L, CIDEr-D, and SPICE. The evaluation results indicate the superiority of explanation outputs in our system, compared to the baseline ADAPT, particularly in multi-reference scenarios, providing more fluent and contextually rich explanations. For instance, the output acquired from Gemini 2.5 Pro model achieves a METEOR score of approximately 19.45, a significant improvement of about 28 percent compared to 15.2 for ADAPT. Furthermore, supplementary experiments show that using a contour representation of the attention map and fine-tuning the models lead to increased visual-textual consistency and result stability. In summary, by linking the visual attention of the decision-making model to the linguistic capabilities of LLMs, this research takes a step toward developing more explainable and trustworthy autonomous vehicles.
لیست مقالات
لیست مقالات بایگانی شده
ارائه یک سیستم توصیهگر آگاه به زمینه مبتنی بر رفتار کاربر در شبکه اجتماعی با استفاده از پیامهای برچسب شده جغرافیایی
زهرا امینی - سید علیرضا هاشمی گلپایگانی - علی میرزائی
جایگزینی دارو براساس پیشبینی یال روی گرافهای ناهمگون با بهرهگیری از جاسازی گراف ناهمگون
رسول سامانی - فهیمه شاهرخ شهرکی - دکتر ناصر قدیری رسول سامانی - فهیمه شاهرخ شهرکی - ناصر قدیری -
A Nano-based High-Speed QCA circuit for Information Security with Image Masking
Saeid Seyedi - Hatam Abdoli
پیش بینی ارتباط میزان مرگ و میر با هم زمانی وجود دو بیماری در مبتلایان به کرونا به کمک بگارگیری شبکه عصبی Word2Vec
سمن مثقالی - دکتر جواد عسکری سمن مثقالی - جواد عسکری -
3D Mesh ONoC: Design of low Insertion Loss and Non-blocking Optical Router and Efficient Routing Algorithm
Sanaz Asadinia - Elham Yaghoubi - Mostafa Sadeghi - Mahdi Mehrabi
Secure Web-Based Control of ROS 1 Robots Using AES-256-GCM Encryption and LLM Integration
Ali Godarzvand chegini - Mohammad Arabian
تخلیهبار محاسباتی ریزدانه تحرکآگاه در رایانش لبه برای اینترنت اشیاء
شکوفه نوروزی - دکتر زینب موحدی شکوفه نوروزی - زینب موحدی -
یک روش خوشه بندی گره ها برای شبکه های حسگر بیسیم با هدف بهبود متوازن سازی بار مبتنی بر تکنیک تاپسیس
راضیه حسین رضایی - فهیمه یزدان پناه
A Novel Decentralized Privacy Preserving Federated Learning Model for Healthcare Applications
Saba Ameri - Reza Ebrahimi Atani
IoT-Driven Water Quality Management System using Deep Q-Network
Shakiba Rajabi - Komeil Moghaddasi
بیشتر
ثمین همایش، سامانه مدیریت کنفرانس ها و جشنواره ها - نگارش 43.8.0