0% Complete
English
صفحه اصلی
/
شانزدهمین کنفرانس بین المللی فناوری اطلاعات و دانش
A Deep Learning Framework for Phase-Aware Feature Representation to Improve Sound Source Direction and Distance Estimation
نویسندگان :
Zahra Abolfazli
1
Hamid Reza Abutalebi
2
1- Yazd University
2- Yazd University
کلمات کلیدی :
(Sound Event Localization and Detection (SELD،phase spectrogram features،Conformer
چکیده :
This paper proposes a novel refinement of the network’s input features to improve distance and Direction-of-Arrival estimation in the sound event localization and detection system. Instead of relying on Mel energies, we propose using phase spectrograms as input feature, which effectively preserve inter-channel time delays and capture crucial wave propagation characteristics. Furthermore, we introduce architectural improvements for increased robustness. Specifically, Huber loss replaces MSE, reducing sensitivity to noise. Additionally, MHSA layers are replaced with Conformer blocks to better model both long-range dependencies and local interactions within the audio data. Our experimental results validate the effectiveness of the proposed phase-based feature representation and optimized architecture, demonstrating improvements in both DOA and distance estimation.
لیست مقالات
لیست مقالات بایگانی شده
مدل یادگیری ماشین برای تشخیص تقلب در کارتهای اعتباری با رویکرد بهینهسازی AUC و تنظیم خودکار ابرپارامترها
محمد مهدی متولی
Statistical distance-base acceptance strategy for desirable offers in bilateral automated negotiation
Arash Ebrahimnezhad - Dr Hamid Jazayeriy - Dr Faria Nassiri-mofakham
طبقهبندی ترافیک رمز مبتنی بر یادگیری ماشین
افسانه معدنی - شقایق نادری - حسین قرایی
کنترل کیفیت پیش_بینانه آمیزه_های لاستیکی مدلی یکپارچه بر اساس استاندارد پذیرش متغیرهای ANSI Z1.9 و پایش رئولوژیکی برخط
آکو یاری - فرهاد محمدزاده
Open-domain question classification and completion in conversational information search
Omid Mohammadi Kia - Mahmood Neshati - Mahsa Soudi Alamdari
Optimal control of robotic hand for rehabilitation using fractional order systems and EEG signal processing
Mehran Safari Dehnavi - Vahid Safari Dehnavi - Masoud Shafiee
SBST challenges from the perspective of the test techniques
Sepideh Kashefi Gargari - Dr Mohammad Reza Keyvanpour
Movable Antenna Design for UAV-Aided Federated Learning via Deep Reinforcement Learning
MOHSEN Ahmadzadeh - Saeid Pakravan - Ghosheh Abed Hodtani
بهبود کارایی بارسپاری در شبکه های سلولی با استفاده از ارتباطات مشارکتی در لایه MAC
نبیل الراشدی - رسول صادقی - وائل حسین اللامی - مهدی حمیدخانی
Classification and Evaluation of Privacy Preserving Data Mining Methods
Negar Nasiri - Mohammadreza Keyvanpour
بیشتر
ثمین همایش، سامانه مدیریت کنفرانس ها و جشنواره ها - نگارش 42.5.2