0% Complete
فارسی
Home
/
پانزدهمین کنفرانس بین المللی فناوری اطلاعات و دانش
Benchmarking Embedding Models for Persian-Language Semantic Information Retrieval
Authors :
Mahmood Kalantari
1
Mehdi Feghhi
2
Nasser Mozayani
3
1- دانشگاه علم و صنعت ایران
2- دانشگاه علم و صنعت ایران
3- دانشگاه علم و صنعت ایران
Keywords :
Embedding search،Embedding models،Persian embedding،Persian question-answering،Retrieval-Augmented Generation (RAG)
Abstract :
The increasing reliance on semantic-based retrieval, especially in the context of large language model-powered chatbots, underscores the need for robust evaluation of embedding models. In this study, the performance of embedding models for Persian-language information retrieval was investigated, addressing an area with limited prior research. Four question-answering datasets were used—two publicly available datasets adapted for this study and two custom datasets derived from translations. A systematic evaluation of 17 embedding models was conducted, and the models were ranked based on their accuracy in retrieving relevant content using similarity measures such as dot product, cosine similarity, and L2 distance. The findings emphasize the adaptability of these models to diverse textual data and address the specific challenges posed by the Persian language. This research bridges a critical gap in Persian-language retrieval tasks, providing a comprehensive benchmark for evaluating embedding models in semantic information retrieval scenarios.
Papers List
List of archived papers
سیستم توصیه گر برای خرید لوازم آرایشی و بهداشتی مبتنی بر الگوریتم جنگل تصادفی
فاطمه رمضانی خوزستانی - مجید رفیعی
Distributed coordination protocol for event data exchange in IoT monitoring applications
Behnam Khazael - Hadi Tabatabaee Malazi
A Real-Time and Robust Approach for Banknote Recognition
Hani Abdi - Mohammad Javad Parseh
Improving Deep Neural Network Accelerator for Malaria Diseased Blood Cells using FPGA
Hadi Rezaeikarjani - Mojtaba Valinataj
بررسی کارآمدی فناوری وب 0.2 در پشتیبانی از فرآیندهای انسان محور و دانش مبنا
سید احسان ملیحی - فاطمه مشایخی کردکلا
بکارگیری الگوریتم بهینه سازی فاخته و منطق فازی به منظور بهبود زمانبندی وظایف در محیط محاسبات مه
فاطمه دوامی - حمید جلیلوند - فاطمه نجفی
A Topic Based Method to Classify the Question Clarity in CQA Networks
Alireza Khabbazan - Dr Ahmad Ali Abin
نقش دادههای آنلاین یونیفرمیتی و تحلیل آماری پیشرفته با ترکیب پایتون و پاوربیآی در بهبود کیفیت و فرآیند تولید تایر
دانیال قادری
توسعه مدل مفهومی طراحی فرآیند مدیریت بحران سیلاب از طریق بهینه سازی استفاده از دستگاه های اینترنت اشیاء (IoT Devices) در تصمیم گیری
محمود رسولی - سید احسان ملیحی
ML-based Optical Fibre Fault Detection in Smart Surveillance and Traffic Systems
Rushil Patel - Sana Narmawala - Nikunjkumar Mahida - Rajesh Gupta - Sudeep Tanwar - Hossein Shahinzadeh
more
Samin Hamayesh - Version 43.8.0