0% Complete
English
صفحه اصلی
/
شانزدهمین کنفرانس بین المللی فناوری اطلاعات و دانش
Enhancing Persian Speech Emotion Recognition with Contrastive Learning and Multimodal Fusion
نویسندگان :
Mobina Esmaeili
1
Vajiheh Sabeti
2
1- دانشگاه الزهرا(س)
2- دانشگاه الزهرا(س)
کلمات کلیدی :
Multimodal Emotion Recognitiont،Representation Learning،Representation Learning،Speech-Text Fusion،ShEMO Dataset
چکیده :
Emotion recognition from both speech and text in low-resource languages such as Persian presents significant challenges due to linguistic complexity and the scarcity of labeled datasets. Conventional multimodal fusion methods often struggle to capture nuanced cross-modal interactions and typically neglect inter-class emotional relationships. To address these limitations, this paper introduces a novel contrastive learning framework that employs pre-trained projection networks to enhance multimodal representations through a combination of intra-modal, inter-modal, and semi-contrastive objectives. The refined embeddings are integrated via a lightweight fusion layer for final emotion classification. In addition, an automatic speech recognition (ASR) system is incorporated to enrich textual inputs and improve linguistic diversity. Experiments on the ShEMO corpus demonstrate that the proposed approach achieves an accuracy of 83.04% and an unweighted average recall (UAR) of 88.1%, substantially outperforming traditional fusion-based baselines. These results confirm the effectiveness of the framework in improving cross-modal alignment and representation quality, highlighting its potential for intelligent interactive systems, social media sentiment analysis, and automated affective computing applications.
لیست مقالات
لیست مقالات بایگانی شده
GNN-based Topology Feature Extraction for Adaptive 6G Network Slicing
Amirmasoud Sepehrian - Siavash Khorsandi
خوشه بندی مقید داده ها به کمک اتوماتای یادگیر سلولی
شکوفه علی محمدی - احمدعلی آبین
بهبود دقت و کارایی در شبکههای عصبی کانولوشنی با استفاده از روشهای محاسبات تقریبی
محمدرضا رفیعی نژاد - محمدرضا بینش مروستی - سید امیر اصغری
Epileptic Seizure Detection based on Statistical and Wavelet Features and Siamese Network
Zahra Hossein-Nejad - Mehdi Nasri
روشی برای تشخیص مرحله پیشرفت آلزایمر در تصاویرFMRI مبتنی بر شبکه های عصبی چگال
فرساد زمانی بروجنی - عباس بهره دار
From Faces to Words: An Efficient Persian Visual Lip Reading
Mana Amini - Sajjad Aemmi - Azadeh Ashouri - Reza Akhoundzadeh - Kourosh Hassanzadeh - Mohammad Reza Mohammadi
Task Scheduling for Real-time Object Detection: Methods and Performance Comparison in ADAS Applications
Mahdi Seyfipoor - Sayyed Muhammad Jaffry - Siamak Mohamadi
Improving Personalized Federated Learning-based QoE Assessment using Clustering
Skokufe Motaharipour - Behrouz Shahgholi Ghahfarokhi - Saeid Afshari
Short-Term Traffic Flow Prediction Based on a Recurrent Deep Neural Networks: Study in Tehran
Dr Monireh عبدوس - Taha Vajed Samei
تخلیهبار محاسباتی ریزدانه تحرکآگاه در رایانش لبه برای اینترنت اشیاء
شکوفه نوروزی - دکتر زینب موحدی شکوفه نوروزی - زینب موحدی -
بیشتر
ثمین همایش، سامانه مدیریت کنفرانس ها و جشنواره ها - نگارش 43.8.0