0% Complete
English
صفحه اصلی
/
شانزدهمین کنفرانس بین المللی فناوری اطلاعات و دانش
From Faces to Words: An Efficient Persian Visual Lip Reading
نویسندگان :
Mana Amini
1
Sajjad Aemmi
2
Azadeh Ashouri
3
Reza Akhoundzadeh
4
Kourosh Hassanzadeh
5
Mohammad Reza Mohammadi
6
1- PART AI Research Center
2- PART AI Research Center
3- PART AI Research Center
4- PART AI Research Center
5- PART AI Research Center
6- Iran University of Science and Technology
کلمات کلیدی :
Lip Reading،Visual Speech Recognition،CTC Loss،LSTM،Video-Based Authentication
چکیده :
Visual speech recognition, or lip reading, is the task of transcribing spoken content directly from video frames of a speaker’s mouth without relying on audio. We develop an end-to-end visual lip reading system that processes cropped mouth regions from video sequences and decodes them into text using recurrent neural networks trained with CTC loss. To extend beyond existing English datasets, we collected and manually annotated a new Persian Lip Reading Dataset (PLRD), providing valuable resources for studying morphologically rich languages. Our experiments show that the proposed system achieves competitive word error rates on our custom Persian dataset. Beyond transcription, the model can also be employed in authentication scenarios, where it verifies whether a spoken phrase in a video matches a given reference text. This demonstrates the potential of lip reading systems not only for accessibility and robust speech recognition in noisy environments, but also for secure user verification.
لیست مقالات
لیست مقالات بایگانی شده
Enhancing Employee Promotion Prediction with a Novel Hybrid Model Integrating Convolutional Neural Networks and Random Forest
Pouya Ardehkhani - Seyyed Reza Moslemi - Hanieh Hooshmand
تحلیل کتابسنجی از مقالات حوزه دوقلوهای دیجیتال
فاطمه مکی زاده - سارا صراف - مصطفی شیرالی
Fast Duplicate Bug Reports Detector Training using Sampling for Dimension Reduction
Behzad Soleimani Neysiani - Saeed Doostali - Seyed Morteza Babamir - Zahra Aminoroaya
A Hybrid Method to Reduce the Voltage Consumption in the Spiking Neural Networks
Shaghayegh Mehdizadeh saraj - Seyyed Amir Asghari - Mohammadreza Binesh Marvasti
بکارگیری الگوریتم بهینه سازی فاخته و منطق فازی به منظور بهبود زمانبندی وظایف در محیط محاسبات مه
فاطمه دوامی - حمید جلیلوند - فاطمه نجفی
Combinatorial Auction Based on Social Choice in the Internet of Things
Maede Esmaeili - Faria Nassiri-Mofakham - Fatemeh Hassanvand
پیشبینی میزان بقای بیماران مبتلا به سرطان ریه با استفاده از ترکیب کارآمد روشهای دادهکاوی و بهینهسازی رقابت استعماری
رخشان رمضانی سرچشمه - مهدی هاشمزاده - امین گلزاری اسکوئی
A Foresight Approach to Cyber Threats Identification and Scenario Planning
MAHDI OMRANI - Masoud Shafiee - Siavash Khorsandi
بررسی روش یادگیری انتقالی جهت پیشبینی پیوند
علی روحانی فر - کمال میرزایی بدرآبادی
Knowledge gap extraction based on the learner click behavior in interaction with videos using the association rule algorithm
Yosra Bahrani - Omid Fatemi
بیشتر
ثمین همایش، سامانه مدیریت کنفرانس ها و جشنواره ها - نگارش 42.5.2