بازشناسی احساس گفتار بین دادگانی با استفاده از مدل HuBERT، اطلاعات گوینده و ویژگی‌های نوایی

نوع مقاله : علمی-پژوهشی

نویسندگان

1 دکترای هوش مصنوعی هیئت علمی دانشکده مهندسی کامپیوتر دانشگاه خواجه نصیر الدین طوسی

2 Computer Engineering Department, K.N.Toosi University of Technology,Tehran,Iran

چکیده

این مطالعه به بررسی چالش‌ها و روش‌های تشخیص احساس از گفتار در میان دادگان گفتار احساسی مختلف (CCSER) می‌پردازد و بر تعمیم دادن ویژگی‌های گفتاری برای بازشناسی احساس از گفتار در دادگان با زبان‌ها، گویندگان و محتوای عاطفی مختلف تمرکز دارد. ما یک معماری عمیق برای سیستم تشخیص احساس از گفتار پیشنهاد می‌دهیم که از بلوک‌های مبدل مدل HuBERT به همراه نهفت‌های گوینده و ویژگی‌های نوایی برای بهبود استخراج ویژگی‌ها و طبقه‌بندی احساسات در مجموعه‌های داده مختلف استفاده می‌کند. روش ما با استفاده از تکنیک‌های یادگیری انتقالی، به‌ویژه از طریق روش‌های بدون نظارت که توزیع ویژگی‌ها را بدون نیاز به داده‌های برچسب‌دار از دامنه‌های هدف انطباق می‌دهند، به مقابله با تغییرداده‌ها و دامنه می‌پردازد. به طور خاص، راهبرد یادگیری انتقالی ما شامل استفاده از یک روش خوشه‌بندی برای انتخاب مناسب‌ترین مدل آموزش دیده برای انجام یادگیری انتقالی از دامنه‌ی مبدأ به دامنه‌های هدف است. ما مدل پیشنهادی خود را با استفاده از مجموعه داده IEMOCAP به‌عنوان دامنه مبدأ، ارزیابی می‌کنیم و اعتبارسنجی خود را به مجموعه داده‌های احساسی با زبان‌های دیگر گسترش می‌دهیم، که قابلیت تطبیق پذیری سیستم پیشنهادی را نشان می‌دهد. نتایج نشان‌دهنده‌ی بهبود قابل توجه در دقت تشخیص احساسات در مقایسه با روش‌های سنتی بازشناسی احساس گفتار بین دادگانی است و اثربخشی تلفیق مدل‌های پیش‌آموزش دیده بر اساس یادگیری خودنظارتی و راهبردهای یادگیری انتقالی در وظایف تشخیص احساس را مورد تأکید قرار می‌دهد.

کلیدواژه‌ها


عنوان مقاله [English]

Cross-Corpus Speech Emotion Recognition Using HuBERT Model, Speaker Embeddings, and Prosodic Features

نویسندگان [English]

  • babak Nasersharif 1
  • Navid Naderi 2
1 computer engineering department, K.N.Toosi university of technology
2 دانشکده مهندسی کامپیوتر - دانشگاه صنعتی خواجه‌نصیرالدین طوسی
چکیده [English]

This study investigates the challenges and methodologies in cross-corpus speech emotion recognition (CCSER), focusing on the generalization of speech features across diverse linguistic, speakers, and emotional contexts. We propose a novel SER system that leverages the transformer blocks of the HuBERT model combined with speaker embeddings and prosodic features to enhance feature extraction for emotion classification across different datasets. Our approach addresses dataset variability by utilizing transfer learning techniques, particularly through unsupervised methods that adapt feature distributions without requiring labeled data from target domains. Specifically, our transfer learning strategy employs a clustering method to select the most appropriate trained model for performing transfer learning from the source to target domains. We evaluate our proposed model using several datasets, including IEMOCAP as the source domain, and extend our validation to emotional datasets with different languages, demonstrating the adaptability of our system. The results indicate significant improvements in emotion recognition accuracy compared to traditional methods, highlighting the effectiveness of integrating advanced self-supervised learning models and transfer learning strategies in CCSER tasks.

کلیدواژه‌ها [English]

  • Cross-corpus speech emotion recognition
  • Transfer learning
  • Clustering
  • Prosodic Features
  • HuBERT
  • Speaker embedding