ارائه یک روش یادگیری ویژگی ترکیبی مبتنی بر الگوریتم شبیه‌سازی تبرید و برنامه‌نویسی ژنتیک (مطالعه موردی: تشخیص بدخیمی سرطان سینه)

نویسندگان

دانشگاه رازی کرمانشاه - دانشکده فنی و مهندسی - گروه مهندسی کامپیوتر و فناوری اطلاعات

چکیده

امروزه استفاده از ابزارهای یادگیری ماشین در حوزه‌های مختلف ازجمله تشخیص بیماری‌ها در حال گسترش است. علت این امر را می‌توان عملکرد متغیر و متمایل به خطای انسان در مقابل عملکرد ثابت ابزارهای یادگیری ماشین در زمینه تشخیص و طبقه‌بندی دانست. حیاتی بودن تشخیص در حوزه‌هایی مانند پزشکی، نیاز به بهبود تشخیص با روش‌های یادگیری ماشین را توجیه می‌کند. ازجمله روش‌های افزایش دقت در این زمینه، الگوریتم‌های کاهش ویژگی و یادگیری ویژگی هستند. در این مقاله با ارائه یک روش یادگیری ویژگی، دقت روش‌های مبتنی بر یادگیری‌ماشین افزایش یافته است. روش پیشنهادی شامل سه فاز افزایش کیفیت داده، انتخاب ویژگی و یادگیری ویژگی است. در فاز اول، مقادیر ازدست‌رفته با شاخص پراکندگی میانگین و یا مد جایگزین می‌شوند در فاز دوم، الگوریتمی مبتنی بر الگوریتم شبیه‌سازی تبرید برای کاهش ویژگی و یافتن بهترین زیرمجموعه از ویژگی‌ها ارائه شده است. در فاز نهایی نیز الگوریتمی مبتنی بر الگوریتم برنامه‌نویسی ژنتیک به‌منظور یادگیری ویژگی‌های متمایزکننده ترکیبی ارائه شده است. روش پیشنهادی با استفاده از دو مجموعه‌داده استاندارد WBCD و WDBC ارزیابی شده است. نتایج به‌دست‌آمده با آخرین دستاوردها مقایسه شده است که حاکی از عملکرد بهبودیافته الگوریتم پیشنهادی است.

کلیدواژه‌ها


عنوان مقاله [English]

A Combined Feature-Learning Method Based on Simulated Annealing Algorithm and Genetic Programming (Case Study: Malignant Breast Cancer Diagnosis)

نویسندگان [English]

  • R. Sadeghi
  • F. Abdali Mohammadi
Department of Computer Engineering and Information Technology, Faculty of Engineering, Razi University, Kermanshah, Iran
چکیده [English]

Nowadays using machine learning tools in different areas such as disease detection is expanding. Origins of this expansion can be found in humans' unstable performance and stable performance of machine learning tools. Criticality of detection in areas such as medical proves the need for improvement in machine learning methods. feature reduction and feature learning are two ways that cause to precision increment. In this paper precision of machine learning algorithms is increased by feature learning. The proposed method contains three steps: data quality increment, feature selection, and feature learning. In the first step missing values are replaced with mean or mode (distribution index). In the second step a simulated annealing-based algorithm is presented to utilized as feature selection process and finding the best subset of features. In the final step, a genetic programming algorithms is presented to do the feature learning step. The proposed method is evaluated on two benchmark datasets (WBCD and WDBC). The results show performance improvement in machine learning algorithms in terms of precision if the proposed method used.

کلیدواژه‌ها [English]

  • machine learning
  • feature learning
  • genetic programming
  • feature reduction
  • breast cancer