یک روش دو مرحله‌ای جدید برای بهسازی گفتار مبتنی بر بهسازی ادراکی، بسته موجک و تخمین نویز ناایستان و بهینه‌سازی ابرپارامترهای آن با الگوریتم دسته ذرات کوانتومی (QPSO)

شناسنامه علمی شماره

نویسندگان

دانشکده مهندسی کامپیوتر و فناوری اطلاعات - دانشگاه رازی

چکیده

موضوع بهبود کیفیت صدا امروزه به یکی از موضوعات مهم و اساسی روز تبدیل شده است. تضعیف نویز به‌نحوی‌که اختلالی در سیگنال اصلی به‌وجود نیاورد، یک چالش مهم برای بهبود صدا محسوب می‌شود. موضوع تحقیق  این مقاله  بررسی نویز موجود در سیگنالِ گفتار، حذف و یا کاهش آن از سیگنال گفتارِنویزی است . در این مقاله یک روش دومرحله‌ای جدید برای کاهش نویز موجود در سیگنال گفتار نویزی ارائه شده است. دراین روش، در مرحلة اول، سیگنال گفتار نویزی توسط روش ادراکی بیزین بهبود داده می‌شود و سپس بر روی سیگنال بهبود داده‌شده بسته موجک اعمال می‌شود و سیگنال را به زیر باندهای مجزا از هم تبدیل می‌کند. در مرحله دوم بر روی هر زیر باند روش بهسازی NNESE اعمال می‌شود. همچنین ابرپارامترهای روش NNESE در تمامی زیرباندها توسط الگوریتم فراابتکاری دسته ذرات کوانتومی (QPSO) بهینه می‌شود. بدین ترتیب هر زیر باند به‌طور جداگانه بهبود داده می‌شود. درنهایت سیگنال بهسازی‌شده با ترکیب زیر باندها حاصل می‌شود. روش پیشنهادی نسبت به روش‌های دیگران ازلحاظ معیارهای PESQ و SegmentalSNR بر روی بخشی از پایگاه داده TIMIT آغشته‌شده به نویزهای Noisex-92 بهتر عمل می‌کند و منجر به کاهش بیشتر نویز از سیگنال می‌گردد.

کلیدواژه‌ها


عنوان مقاله [English]

A new two-stage method for speech enhancement based on perceptual enhancement, wavelet packet and nonstationary noise detection and QPSO-based optimization of its hyperparameters

نویسندگان [English]

  • E. Sahebi Hamrah
  • S J. Kabudian
Faculty of Computer Engineering and Information Technology, Razi University, Kermanshah, Iran
چکیده [English]

Nowadays, speech enhancement has become one of the most important issues in signal processing. Noise reduction such that it does not disturb the original signal is an important challenge in speech enhancement. In this paper, we have proposed a new hybrid two-stage method for speech enhancement. In the proposed method, noisy speech signal is enhanced using perceptually-motivated Bayesian approach in the first stage. Then, the signal is decomposed into sub-bands using wavelet packet decomposition. In the second stage, each sub-band signal is enhanced using NNESE method. Hyperparameters of NNESE is optimized using QPSO metaheuristic. Finally, all enhanced sub-band signals are combined together using wavelet packet reconstruction. Proposed method is better than others in terms of PESQ and Segmental SNR criteria over a subset of TIMIT speech database polluted by Noisex-92 noise database.

کلیدواژه‌ها [English]

  • Speech processing
  • noise reduction
  • speech enhancement
  • wavelet transform
  • QPSO optimization algorithm