کنفرانس بین المللی فناوری اطلاعات و دانش

صفحه اصلی / یازدهمین کنفرانس بین المللی فناوری اطلاعات و دانش

خوشه بندی ویسیلاب های دو آوایی زبان فارسی در کاربرد لب خوانی

نویسندگان :

مهسا هدایتی پور¹ یاسر شکفته² محسن ابراهیمی مقدم³

1- shahid beheshti university 2- دانشگاه شهید بهشتی 3- دانشگاه شهید بهشتی

کلمات کلیدی :

بازشناسی دیداری گفتار، لب‌خوانی ، نگاشت هجا به ویسیلاب، هجاهای دو آوایی

چکیده :

لب‌خوانی، فرآیند بازشناسی دیداری گفتار است. در این فرآیند تشخیص واحدهای کوچک‌تر گفتاری می‌تواند مبنای تشخیص واحدهای بزرگ‌تر گفتاری باشد. یکی از چالش‌های این فرآیند، مشابه بودن تصاویر برخی از واحدهای گفتاری بعلت جایگاه تولید یکسان در اندام‌های گفتاری است. بدین منظور در فرآیند لب‌خوانی،خوشه‌بندی تصاویر اجزای گفتار و ساختن جداول نگاشت از شکل شنیداری اجزای گفتار به شکل دیداری اجزای گفتار از اهمیت اساسی برخوردار است. از آنجا که بازشناسی دیداری هجاهای دو آوایی گام نوینی در لب‌خوانی زبان فارسی است، در این پژوهش سعی شده است برای بازشناسی دیداری بهینه هجاهای دو آوایی زبان فارسی جداول نگاشت مناسبی بر مبنای روش‌های یادگیری ماشین و یا دانش افراد خبره فراهم گردد. بیشینه دقت شناسایی برای نگاشت 9 گانه از هجاهای دو آوایی به ویسیلاب به مقدار 81/61 درصد حاصل شده است. با مدل سازی این ویسیلاب ها توسط مدل مخفی مارکوف و تزریق مناسب اطلاعات مدل زبانی سیلابها، دقت 18/41 درصد در شناسایی 30 کلمه فارسی حاصل شده است.