0% Complete
English
صفحه اصلی
/
پانزدهمین کنفرانس بین المللی فناوری اطلاعات و دانش
Embedded speech encoder for low-resource languages
نویسندگان :
Alireza A.Tabatabaei
1
Pouria Sameti
2
Ali Bohlooli
3
1- University of Isfahan
2- University of Isfahan
3- University of Isfahan
کلمات کلیدی :
Embedded Systems،Embedded AI،Embedded Speech embedding
چکیده :
Although high-performance artificial intelligence (AI) models require substantial computational resources, embedded systems are constrained by limited hardware capabilities, such as memory and processing power. On the other hand, embedded systems have a broad range of applications, making the integration of AI and embedded systems a prominent topic in both hardware and AI research. Creating powerful speech embeddings for embedded systems is challenging, as such models, like Wave2Vec, are typically computationally intensive. Additionally, the scarcity of data for many low-resource languages further complicates the development of high-performance models. To address these challenges, we utilized BERT to generate speech embeddings. BERT was selected because, in addition to producing meaningful embeddings, it is trained on numerous low-resource languages and facilitates the design of efficient decoders. This study introduces a compact speech encoder tailored for low-resource languages, capable of functioning as an encoder across a diverse range of speech tasks. To achieve this, we utilized BERT to generate meaningful embeddings. However, due to the high dimensionality of BERT embeddings, which imposes significant computational demands on many embedded systems, we applied dimensionality reduction techniques. The reduced-dimensional vectors were subsequently used as labels for speech data to train a model composed of convolutional neural networks (CNNs) and fully connected layers. Finally, we demonstrated the encoder's effectiveness through an application in speech command recognition.
لیست مقالات
لیست مقالات بایگانی شده
کنترل کیفیت پیش_بینانه آمیزه_های لاستیکی مدلی یکپارچه بر اساس استاندارد پذیرش متغیرهای ANSI Z1.9 و پایش رئولوژیکی برخط
آکو یاری - فرهاد محمدزاده
FiReT: A Neural Radiance Fields Framework for Wireless Field Reconstruction and Transmitter Placement
Negar Pouya - Armin Soleymani - Gholamreza Moradi - Farzaneh Abdollahi
تحویل بهینه جریان پخش زنده HTTP: یک رویکرد ترکیبی سرور- شبکه
فائزه امینی تهرانی - احمدرضا منتظرالقائم
Mamba-SAM: A Hybrid Architecture for Efficient Cardiac MRI Medical Image Segmentation
Mohammadreza Gholipour Shahraki - Mehdi Rezaeian - Mohammad Ghasemzadeh
بهبود دقت و کارایی در شبکههای عصبی کانولوشنی با استفاده از روشهای محاسبات تقریبی
محمدرضا رفیعی نژاد - محمدرضا بینش مروستی - سید امیر اصغری
SPA Bot: Smart Price-Action Trading Bot for Cryptocurency Market
Dr Hamid Jazayeriy - Mohammad Daryani
To Kill a Mockingbird: Cryptanalysis of an Authenticated Key Exchange Scheme for Drones
Neda Toghraee - Hamid Mala
یادگیری فناورانه و بینالمللیسازی سکوهای پیامرسان: چارچوبی برای بازیگران متأخر
علیرضا کبیری فرد - علی ولی زاده - مهدی مجیدپور
بهینهسازی مسیر وسیله ی نقلیه ی هوایی بدون سرنشین جهت کاهش زمان جمع آوری داده از حسگرها در شبکه ی اینترنت اشیا مبتنی بر الگوریتم یادگیری تقویتی عمیق
محمد ناظمی جنابی - هادی اشعریون - مهدی پورقلی
پیش بینی گره های رهبر در شبکه های اجتماعی با استفاده از پیش بینی پیوند
روح اله رشیدی - فرساد زمانی بروجنی - محمد رضا سلطان آقایی - هادی فرهادی
بیشتر
ثمین همایش، سامانه مدیریت کنفرانس ها و جشنواره ها - نگارش 43.8.0