تولید قواعد فازی احتمالی به‌کمک یادگیری تقویتی

نویسندگان

دانشگاه یزد - دانشکده مهندسی برق و کامپیوتر

چکیده

مهم‌ترین بخش در یک سیستم فازی پایگاه قواعد آن است. یکی از مشکلات موجود در تولید قواعد فازی با داده‌های آموزشی، وجود داده‌های ناسازگار است زیرا در این‌گونه داده‌ها چند خروجی برای وضعیت‌های یکسان وجود دارد. لذا تولید قواعد و تصمیم‌گیری برای انتخاب تالی مناسب برای هر قاعده با چالش همراه خواهد بود. روش‌های موجود از برآیند حالت‌های ناسازگار استفاده می‌کنند که باعث تولید خروجی با مقدار میانگین تالی‌های مربوطه می‌شود. به‌منظور بهبود این مشکل در این مقاله از مقداردهی اولیه به‌مقدار احتمال انتخاب عمل‌ها، در یادگیری تقویتی فازی مبتنی بر معماری عملگر-نقاد استفاده می‌شود. با خوشه‌بندی داده آموزشی و استفاده از مدل سوگنوی مرتبه صفر با تعدادی عمل کاندید در هر قاعده، پارامترهای ماژول عملگر مقداردهی اولیه شده و درنهایت با معماری عملگر-نقاد و سیگنال تقویتی، به‌صورت برخط تنظیم می‌شوند. با توجه به اینکه مشکل ناسازگاری در داده‌های مربوط به ناوبری ربات نسبت به موارد دیگر نمایان‌تر است، ایده ارائه‌شده در مسئله ناوبری ربات استفاده می‌شود. آزمایش‌ها در شبیه‌ساز Webots برای ربات ایپاک انجام شده است. نتایج آزمایش‌ها حاکی از آن است که روش ارائه‌شده موجب کاهش زمان یادگیری، کاهش برخورد به موانع در مسئله ناوبری ربات با قواعد فازی کم‌تر است.

کلیدواژه‌ها


عنوان مقاله [English]

Generation of Probabilistic Fuzzy Rule by Reinforcement Learning

نویسندگان [English]

  • N. Mohammad Karimi
  • V. Derhami
Faculty of Electrical and Computer Engineering, University of Yazd, Yazd, Iran
چکیده [English]

Rule base is the most important part of a fuzzy inference system. Inconsistent data make some challenges in generating of fuzzy rules. In these cases, since there are multiple outputs for the same states, hence making decision for suitable consequence selection in each rule is a big challenge. Averaging of inconsistent states has been adopted by current methods and they create output with average of related consequences. The initialization of actions selection probability in fuzzy reinforcement learning based on architecture Actor-critic is used in this method. In this method, training data is clustered and zero order Sugeno method with number of candidate action in each rule are used for the initialization of the actor module parameters and they are online tuned with adopting actor-critic and reinforcement signal finally. There are many inconsistent challenges in robot navigation data in comparing other cases. Therefore the proposed method is used in robot navigation problem. The experiments are done for e-puck robot in Webots simulation. Results show that proposed method has reduced training time, collision to obstacle and fuzzy rule numbers.

کلیدواژه‌ها [English]

  • Fuzzy controller
  • fuzzy rule generation
  • inconsistent data
  • actor-critic architecture