0% Complete
فارسی
Home
/
شانزدهمین کنفرانس بین المللی فناوری اطلاعات و دانش
From Faces to Words: An Efficient Persian Visual Lip Reading
Authors :
Mana Amini
1
Sajjad Aemmi
2
Azadeh Ashouri
3
Reza Akhoundzadeh
4
Kourosh Hassanzadeh
5
Mohammad Reza Mohammadi
6
1- PART AI Research Center
2- PART AI Research Center
3- PART AI Research Center
4- PART AI Research Center
5- PART AI Research Center
6- Iran University of Science and Technology
Keywords :
Lip Reading،Visual Speech Recognition،CTC Loss،LSTM،Video-Based Authentication
Abstract :
Visual speech recognition, or lip reading, is the task of transcribing spoken content directly from video frames of a speaker’s mouth without relying on audio. We develop an end-to-end visual lip reading system that processes cropped mouth regions from video sequences and decodes them into text using recurrent neural networks trained with CTC loss. To extend beyond existing English datasets, we collected and manually annotated a new Persian Lip Reading Dataset (PLRD), providing valuable resources for studying morphologically rich languages. Our experiments show that the proposed system achieves competitive word error rates on our custom Persian dataset. Beyond transcription, the model can also be employed in authentication scenarios, where it verifies whether a spoken phrase in a video matches a given reference text. This demonstrates the potential of lip reading systems not only for accessibility and robust speech recognition in noisy environments, but also for secure user verification.
Papers List
List of archived papers
هوشمندسازی در صنعت تایر با استفاده از هوش تجاری برای تحلیل و پایش شرایط عملیاتی و شرایط محصول
پوریا عزتی
جانمایی توزیعشده محتوا برای ذخیرهسازی موقت در شبکههای سلولی کوچک با حضور کاربران مخرب
زهرا رشیدی - دکتر وصال حکمی - حانیه سلمانطاهری زهرا رشیدی - وصال حکمی - حانیه سلمانطاهری -
Explainable AI for Medical Image Diagnosis Using Hybrid Attention-CAM Mechanisms
Negin Amirzadeh
Electrophysiological Modeling and Interactive Approaches of Electrical Circuits and Hypergraphs for Understanding Neural Circuit Dynamics
Arian Baymani - Maryam Naderi Soorki
تشخیص زودهنگام سندروم داون از روی تصاویر سونوگرافی جنین با استفاده از مدلهای عمیق پیشآموزش دیده
فائزه سادات حسینی نیا - محرم منصوری زاده - حسن ختنلو
A clonal selection mechanism for load balancing in the cloud computing system
Melika Mosayyebi - Reza Azmi
Benchmarking Embedding Models for Persian-Language Semantic Information Retrieval
Mahmood Kalantari - Mehdi Feghhi - Nasser Mozayani
تشخیص خودکار اختلال عروقی ماکولا با عنوان عروق گسترش یافته در تصاویر آنژیوگرافی حاصل از تصویربرداری OCTA
راضیه گنجی - دکتر محسن ابراهیمی مقدم - دکتر رامین نوری نیا
مکانیابی بهینه آلودگی در شبکههای توزیع آب با استفاده از تکنولوژی اینترنت اشیاء بر مبنای پیشبینی سری زمانی چند متغیره
زینب محزون - امید بوشهریان
مروری بر الگوریتمهای انتخاب مشتری در یادگیری فدرال
عطیه منعمی بیدگلی - رضا مهدوی
more
Samin Hamayesh - Version 42.5.2