بهسازی وفقی سیگنال گفتار در محیط‌های واقعی با استفاده از ساختار ترکیبی مبتنی بر شکل‌دهنده‌های پرتو و فیلتر پسینه

نویسندگان

1 دانشگاه آزاد اسلامی واحد نجف آباد - باشگاه پژوهشگران جوان و نخبگان

2 دانشگاه یزد - دانشکده مهندسی برق - آزمایشگاه تحقیقاتی پردازش گفتار

چکیده

تنوع میدان‌های نویزی حاکم بر محیط‌های واقعی، طراحی سیستم واحدی را که قادر به حذف کامل همه اغتشاشات محیطی باشد، با مشکل مواجه می‌کند. لذا، داشتن یک شناخت اولیه از میدان‌های نویزی موجود در محیط و بررسی نوع اثر هر یک بر روی سیگنال گفتار، گام مؤثری در جهت فرآیند بهسازی محسوب می‌شود. در این مقاله، ضمن بررسی نویزهای اساسی موجود در زمینه گفتار ضبط‌شده در شرایط واقعی، به ارزیابی میدان‌های نویزی پایین‌گذر پخشنده و مقایسه تابع همدوسی فضایی آنها در شرایط واقعی با نتایج تئوری خواهیم پرداخت. همچنین، ساختار کارآمد ترکیبی مبتنی بر آرایه‌های میکروفونی متشکل از شکل‌دهنده‌های پرتو وفقی و فیلتر پسینه پیشنهاد می‌شود. در طرح پیشنهادی، با هدف دنبال کردن شرایط پویای محیط وکنترل وفقی ضرایب وزن‌دهی شکل‌دهنده پرتو، دو الگوریتم حداقل میانگین مربع  و سریع‌ترین کاهش استفاده واثر هر یک بر بهسازی سیگنال گفتار مقایسه خواهد شد. ساختار مذکور،  ضمن ایجاد صفرهای کنترل‌شده‌ای در الگوی تشعشعی شکل‌دهنده پرتو برای مقابله پویا با میدان‌های نویزی جهت‌دار محیط، به تعدیل نویزهای ناهمبسته و پخشنده می‌پردازد. بررسی اثر سرعت همگرایی الگوریتم‌های مورد استفاده بر میزان SNR در حضور انواع میدان‌های نویزی با طیف‌های فرکانسی مختلف از دیگر فعالیت‌های انجام شده در این تحقیق محسوب می‌شود. نتایج حاصل از شبیه‌سازی و همچنین پیاده‌سازی طرح پیشنهادی در شرایط واقعی و در سناریوهای مختلف، حاکی از نقش به‌سزای آن در بهبود عملکرد بهسازی سیگنال گفتار دارد.

کلیدواژه‌ها


عنوان مقاله [English]

A Hybrid Adaptive Beam-former and Post-filter for Speech Enhancement in Real Environments

نویسندگان [English]

  • A. Avokh 1
  • H. R. Abutalebi 2
1 Young Researchers and Elite Club, Najafabad Branch, Islamic Azad University, Najafabad, Iran
2 Speech Processing Research Lab (SPRL), Electrical Eng. Dept., Yazd University, Yazd, Iran
چکیده [English]

Diversity of the noise fields in real environments makes difficult to design an efficient de-noising system. This paper addresses the problem of speech enhancement in real environments. Towards this goal, we present a hybrid scheme based on the adaptive beam-forming and post filtering. In order to capture the adaptive conditions of the environment, we adopt two algorithms: steepest descent and least mean square. We also consider the application of the post-filters on the output of the beam-former. As an advantage, the proposed structure not only produces some controlled nulls to reduce the directional noises, but also adaptively minimizes the power of diffuse and uncorrelated noises. The study of the convergence of the proposed algorithms and also the behavior of the diffuse noise in real conditions are other issues considered in this paper. Numerical results of our comprehensive implementation confirm the efficiency of the proposed scheme in suppression of the real environmental noises.

کلیدواژه‌ها [English]

  • Microphone array
  • speech enhancement
  • beam-forming
  • post filter
  • diffuse noise
[1] Z. Yermeche, “Subband beamforming for speech enhancement in hands-free communication”, Licentiate Thesis, Blekinge Institute of Technology 372 25 Ronneby, Sweden, Dec. 2004.
[2] N. Ito, E. Vincent, T. Nakatani, N. Ono, S. Araki, and S. Sagayama, “Blind suppression of nonstationary diffuse acoustic noise based on spatial covariance matrix decomposition,” Signal Processing Systems, vol. 79, no. 2, pp. 145-157, 2015.
[3] I. McCowan and H. Bourlard, “Microphone array post-filter for diffuse noise field”, In Proc. International Conference on Acoustics, Speech, and Signal Processing, vol. 1, pp. 905-908, Florida, 2002.
  [4] زهرا حبیبی، مرتضی کازرونی، سیدحسین محسنی ارمکی و عماد حمیدی، ”ارائه یک روش کاربردی جهت کالیبراسیون آنتن‌های آرایه فازی“، مجله مهندسی برق دانشگاه تبریز، صفحه 79-84، شماره 4، 1394.
[5]A. Avokh and H. R. Abutalebi, “Speech enhancement using linearly constrained adaptive constant directivity beamformers,” Applied Acoustics, vol. 71, no. 3, pp. 262-268,  2010.
[6] D. Comminiello, M. Scarpiniti, R. Parisi and A. Uncini, “A novel affine projection algorithm for superdirective microphone array beamforming,” in Proc. IEEE International Symposium on Circuits and Systems, pp. 2127-2130, Jun. 2010.
[7] W. Dongxia, Z. Jiachao, W. Tao, “A broadband beamforming method
based on microphone array for the speech enhancement,” International Conference on Signal Processing Systems, pp. 363 –366, 2010.
[8]S. M. Golan, A. Bertrand, M. Moonen, and S. Gannot, “Optimal distributed minimum-variance beamforming approaches for speech enhancement in wireless acoustic sensor networks,” Signal Processing, vol. 107, pp. 4-20, 2015.
[9] S. Khoubrouy and J. Hansen, “Microphone array processing strategies for distant based automatic speech recognition,” IEEE Signal Processing Letters, vol. 23, no. 10, pp. 1344 - 1348, July 2016.
[10] T. Padoisa, F. Sgard, O. Doutres, and AlainBerry, “Acoustic source localization using a polyhedral microphone array and an improved generalized cross-correlation technique,” Journal of Sound and Vibration, vol. 386, pp.  82-99, Jan. 2017.
[11] M. J. Taghizadeh, P. N. Garner, and H. Bourlard, “Enhanced diffuse field model for ad hoc microphone array calibration,” Signal Processing, vol. 101, pp. 242–255, August 2014.
[12] J. Li and M. Akagi, “A hybrid microphone array post-filter in a diffuse noise field,” vol. 69, no. 6, pp. 546-557, June 2008.
[13]Y. A. Huang, A. Luebs, J. Skoglund, and W. B. Kleijn, “Globally optimized least-squares post-filtering for microphone array speech enhancement,” In proc International Conference on Signal Processing Systems, , pp. 380-384, 2016.
[14] G. Huang, J. Benesty, and J. Chen, “Superdirective beamforming based on the Krylov matrix,” IEEE/ACM Trans. Audio, Speech, Language Processing, vol. 24, pp. 2531-2543, Dec. 2016.
[15] D. L. Alon and B. Rafaely, “Beamforming with optimal aliasing cancellation in spherical microphone arrays,” IEEE/ACM Trans. Audio, Speech & Language Processing, vol. 24, no. 1, pp.196-210, 2016.
[16] N. Ito, H. Shimizu, N. Ono, and S. Sagayama, “Diffuse noise suppression using crystal-shaped microphone arrays,” IEEE Trans. on Audio, Speech and Language Processing, vol. 19, no. 7, pp. 2101-2110, Sep. 2011.
[17] مجتبی حاجی آبادی، عباس ابراهیمی مقدم  و حسین خوش بین، ”حذف نویز صوتی مبتنی بر یک الگوریتم وفقی نوین“، مجله مهندسی برق دانشگاه تبریز، صفحه 139-146، شماره 3، 1395.
[18] L. Chergui and S. Bouguezel, “A new pre-whitening transform domain LMS algorithm and its application to speech denoising,” Signal Processing, Vol. 130, , pp. 118-128, Jan. 2017
 [19]  مسعود گراوانچی زاده، پریا دادور و بابک بهادرنیا، ”بهبود سیستم جداسازی منبع مبتنی بر آنالیز ترکیب شنیداری در زبان فارسی“ شماره  4،صفحه 273-283 ، 1395
[20]     S. A. Vorobyov, A. B. Gershman, and Z. Q. Luo, “Robust adaptive beam-forming using worst-case performance optimization: A solution to the signal mismatch problem,” IEEE Trans. Signal Process., vol. 51, no. 2, pp. 313-324, Feb. 2003.
[21] S. Haykin, Adaptive Filter Ttheory, fourth ed., Prentice Hall, 2002.
[22] G. Doblinger “An adaptive microphone array for optimum beamforming and noise reduction,” in Proc. European Signal Processing Conference (EUSIPCO) Florence, Italy, 2006.
[23] P. Teal, T. D. Abhayapala, and R. A. Kennedy, “Spatial correlation in non-isotropic scattering scenarios,” in proc. International Conference on Acoustics, Speech, and Signal Processing, pp. 2833-2836, 2002.
[24]     Y. Ephraim and D. Malah, “Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator,” IEEE Trans. Acoust., Speech, Signal Processing, vol. 32, pp. 1109–1121, Dec. 1984.
[25] https://pws.yazd.ac.ir/sprl
[26] M. Bijankhan, J. Seikhzadeghan, M. R. Roohani, Y. Samareh, K. Lucas, M. Tebyani, “FARSDAT - the speech database of farsi spoken language,” in Proc. of SST-94, pp. 826-831,1994.
[27] http://svr-ww.eng.cam.ac.uk/comp.speech/section1/data/noisex.html