ارائه یک روش مؤثر بازشناسی شیء مبتنی بر هرس کردن احتمالی مشخصه‌های دیداری تصویر در مدل HMAX

نویسندگان

دانشکده مهندسی برق و کامپیوتر - دانشگاه بیرجند

چکیده

سیستم بینایی انسان قادر به بازشناسی شِیء در صحنه‌های شلوغ با سرعت و دقت بالاست. مدل‌های زیادی برای بازشناسی شیء با الهام از سیستم بینایی انسان ازجمله مدل HMAX معرفی‌شده‌اند. در این تحقیق، روشی مؤثر با عنوان انتخاب احتمالی HMAX (PSHMAX) برای بازشناسی شیء با حفظ ساختار مدل HMAX ارائه شده است. مشکل مدل HMAX انتخاب تصادفی تکه‌های تصویر است که سبب استخراج دو دسته از تکه‌های نامطلوب می‌شود. دسته اول تکه‌هایی با اطلاعات کم که بدون تولید خروجی مفید، بار محاسباتی سیستم را افزایش می‌دهند و دسته دوم تکه‌هایی با اطلاعات غیرمفید از پس‌زمینه که باعث تولید خروجی اشتباه می‌شوند. در مدل پیشنهادی، تکه‌هایی شامل اطلاعات حداکثری مفید با رویکرد تصادفی در دو مرحله استخراج می‌شوند: مرحله اول ایجاد استخری از تکه‌های شامل بیشترین اطلاعات و مرحله دوم استخراج تکه‌های شامل اطلاعات مفیدتر و بهینه از استخر. برای ارزیابی، نرخ بازشناسی روش پیشنهادی با مدل HMAX و سایر روش‌های جدید توسعه‌یافته آن روی پایگاه‌های داده Caltech5 و Caltech101 مقایسه شده است. نتایج حاصل نشانگر برتری روش پیشنهادی است.

کلیدواژه‌ها


عنوان مقاله [English]

New Effective Method for Object Recognition based on Probabilistic Pruning of Visual Characteristics in HMAX

نویسندگان [English]

  • M. Akbarpour
  • N. Mehrshad
  • S. M. Razavi
Faculty of Electrical and Computer Engineering, University of Birjand, Birjand, Iran
چکیده [English]

The human visual system (HVS) recognizes object in the crowded scenes with high speed and accuracy. So far, many object recognition models based on HVS, like HMAX, have been developed. In this paper, the new effective method based on HMAX is proposed called Probabilistic Selection HMAX (PSHMAX). HMAX main problem is random patch extraction which extracts two useless patches. First, patches involving low information that cause more computational complexity with no useful result. Second, patches with wrong information from background that produce wrong output. In the proposed method, the optimum patches involving maximum useful information are extracted in the random way which has two steps: first is producing poll of patches involving maximum information, second is patches extracting with useful information from poll. To evaluate the proposed method, we apply it to object categorization and conduct experiment on the Caltech5 and Caltech101 databases. Results demonstrate that the proposed method has a higher performance than the HMAX and existing architectures having a similar framework.

کلیدواژه‌ها [English]

  • Object Recognition
  • Image Patches
  • Human Visual System
  • Edge
  • HMAX Model
[1] R. Fergus, P. Perona, and A. Zisserman, "Object class recognition by unsupervised scale-invariant learning," Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition, pp. II-II, 2003.
[2] R. Peng and P. K. Varshney, "A human visual system-driven image segmentation algorithm," Journal of Visual Communication and Image Representation, vol. 26, pp. 66-79, 2015.
[3] D. H. Hubel and T. N. Wiesel, "Receptive fields of single neurones in the cat's striate cortex," The Journal of physiology, vol. 148, p. 574, 1959.
[4] D. H. Hubel and T. N. Wiesel, "Receptive fields and functional architecture of monkey striate cortex," The Journal of physiology, vol. 195, pp. 215-243, 1968.
[5] M. Mishkin and L. G. Ungerleider, "Contribution of striate inputs to the visuospatial functions of parieto-preoccipital cortex in monkeys," Behavioural brain research, vol. 6, pp. 57-77, 1982.
[6] M. Riesenhuber and T. Poggio, "Hierarchical models of object recognition in cortex," Nature neuroscience, vol. 2, pp. 1019-1025, 1999.
 [7] T. Serre, L. Wolf, S. Bileschi, M. Riesenhuber, and T. Poggio, "Robust object recognition with cortex-like mechanisms," IEEE transactions on pattern analysis and machine intelligence, vol. 29, 2007.
[8] T. Serre, L. Wolf, and T. Poggio, "Object recognition with features inspired by visual cortex," Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), pp. 994-1000, 2005.
[9] D. G. Lowe, "Object recognition from local scale-invariant features," The proceedings of the seventh IEEE international conference on Computer vision, pp. 1150-1157, 1999.
[10] D. G. Lowe, "Distinctive image features from scale-invariant keypoints," International journal of computer vision, vol. 60, pp. 91-110, 2004.
[11] N. Otsu, "A threshold selection method from gray-level histograms," Automatica, vol. 11, pp. 23-27, 1975.
[12] Y. LeCun, F. J. Huang, and L. Bottou, "Learning methods for generic object recognition with invariance to pose and lighting," Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), pp. 83-104, 2004.
[13] S. M. Stringer, G. Perry, E. T. Rolls, and J. Proske, "Learning invariant object recognition in the visual system with continuous transformations," Biological cybernetics, vol. 94, pp. 128-142, 2006.
[14] سلیمه بامری، سعید سریزدی و حسین نظام آبادی پور، «فیلترهای چندجمله‌ای مدوله شده با دوره محدود و کاربرد آن‌ها در طبقه بندی تصویر»، مجله مهندسیبرق دانشگاه تبریز، جلد40، شماره1.
[15] A. W. Bitar, M. M. Mansour, and A. Chehab, "Efficient Implementation of a Recognition System using the Cortex Ventral Stream Model," VISAPP, pp. 138-147, 2015.
[16] Y. Li, W. Wu, B. Zhang, and F. Li, "Enhanced HMAX model with feedforward feature learning for multiclass categorization," Frontiers in computational neuroscience, vol. 9, 2015.