0% Complete
English
صفحه اصلی
/
پانزدهمین کنفرانس بین المللی فناوری اطلاعات و دانش
Benchmarking Embedding Models for Persian-Language Semantic Information Retrieval
نویسندگان :
Mahmood Kalantari
1
Mehdi Feghhi
2
Nasser Mozayani
3
1- دانشگاه علم و صنعت ایران
2- دانشگاه علم و صنعت ایران
3- دانشگاه علم و صنعت ایران
کلمات کلیدی :
Embedding search،Embedding models،Persian embedding،Persian question-answering،Retrieval-Augmented Generation (RAG)
چکیده :
The increasing reliance on semantic-based retrieval, especially in the context of large language model-powered chatbots, underscores the need for robust evaluation of embedding models. In this study, the performance of embedding models for Persian-language information retrieval was investigated, addressing an area with limited prior research. Four question-answering datasets were used—two publicly available datasets adapted for this study and two custom datasets derived from translations. A systematic evaluation of 17 embedding models was conducted, and the models were ranked based on their accuracy in retrieving relevant content using similarity measures such as dot product, cosine similarity, and L2 distance. The findings emphasize the adaptability of these models to diverse textual data and address the specific challenges posed by the Persian language. This research bridges a critical gap in Persian-language retrieval tasks, providing a comprehensive benchmark for evaluating embedding models in semantic information retrieval scenarios.
لیست مقالات
لیست مقالات بایگانی شده
ML-based Optical Fibre Fault Detection in Smart Surveillance and Traffic Systems
Rushil Patel - Sana Narmawala - Nikunjkumar Mahida - Rajesh Gupta - Sudeep Tanwar - Hossein Shahinzadeh
A Joint Trajectory and Energy Harvesting Method for an UAV Enabled Disaster Response Network
Hosein Mohammadi Firozjae - Javad Zeraatkar Moghaddam - Mehrdad Ardebilipour
To Kill a Mockingbird: Cryptanalysis of an Authenticated Key Exchange Scheme for Drones
Neda Toghraee - Hamid Mala
The risk prediction of heart disease by using neuro-fuzzy and improved GOA
Vahid Safari Dehnavi - Masoud Shafiee
Mode Selection and Resource Allocation in D2D-Enabled MC-NOMA using Matching Theory
Alireza Gholamrezaee - Hamid Farrokhi - Javad Zeraatkar Moghaddam
ارائه مدل یادگیری ماشین برای پیشبینی سریزمانی باینری از دیدگاه مسئلههای دستهبندی با کاربرد در پیشبینی نتهای موسیقی
نیلوفر ع��دلخانی - حسام عمرانپور
خوشه بندی شبکههای بیسیم ادهاک مبتنی بر محدودیتهای فازی
پروا کلیبری - کریم صمدزمینی
یک روش خوشه بندی گره ها برای شبکه های حسگر بیسیم با هدف بهبود متوازن سازی بار مبتنی بر تکنیک تاپسیس
راضیه حسین رضایی - فهیمه یزدان پناه
Improving Drug-Target Interaction Prediction Using Enhanced Feature Selection
Maryam Taheri - Mohammad Reza Keyvanpour - Mohadeseh Saadat Mousavi
An approach to model the optimal service provisioning in vehicular cloud networks
Farhoud Jafari Kaleibar - Maghsoud Abbaspour
ثمین همایش، سامانه مدیریت کنفرانس ها و جشنواره ها - نگارش 40.3.1