یادگیری تقویتی معکوس مبتنی بر رویداد برای اجماع رهبر-پیرو بهینه تطبیقی سیستم‌های چندعاملی ناشناخته

نوع مقاله : علمی-پژوهشی

نویسندگان

1 استاد، دانشکده مهندسی برق، دانشگاه سمنان، ایران

2 دانشجوی دکتری، دانشکده مهندسی برق دانشگاه سمنان،سمنان، ایران

3 عضو هیئت علمی/ دانشگاه صنعتی امیرکبیر

چکیده

در این مقاله یادگیری تقویتی معکوس مبتنی بر رویداد برای بازی‌های گرافی زمان گسسته چند عاملی با دینامیک ناشناخته معرفی می‌شود. در مساله یادگیری تقویتی معکوس برای این بازی‌ها، سیستم خبره و یادگیرنده هر دو یک سیستم چند ‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌عاملی رهبر-پیرو می‌باشند. هدف سیستم خبره هم زمانی بهینه عامل‌های پیرو به عامل رهبر است. عامل‌های یادگیرنده قصد دارند از حالت‌ها و ورودی‌های کنترلی عامل‌های خبره تقلید کنند در حالی که تابع ارزش خبره برای آن‌ها ناشناخته است. یک الگوریتم یادگیری تقویتی معکوس بر مبنای برنامه‌ریزی پویای تطبیقی تکرار ارزش برای سیستم یادگیرنده توسعه داده شده است تا تابع عملکرد ناشناخته خبره را بازسازی کند و معادلات همیلتون-ژاکوبی-بلمن مبتنی بر رویداد را بدون نیاز به هیچ دانشی از دینامیک‌های سیستم خبره و یادگیرنده حل کند. برای اجرای الگوریتم ارائه شده، از ساختار شبکه عصبی نقاد-عملگر-پاداش‌حالت استفاده شده ‌است و دینامیک‌های ناشناخته سیستم‌های چندعاملی خبره و یادگیرنده با شبکه‌های عصبی شناساگر تقریب زده می‌شوند. برخلاف برنامه‌ریزی پویای تطبیقی سنتی که قاعده کنترل بصورت دوره‌ای به روز می‌شود، در روش ارائه شده قاعده کنترل و وزن‌های شبکه عصبی فقط در لحظات رویداد به روز می‌شوند. بنابراین پیچیدگی محاسباتی کاهش می‌یابد. در انتها، نتایج شبیه‌سازی برای توصیف کارایی روش پیشنهادی ارائه شده است.

کلیدواژه‌ها

موضوعات


عنوان مقاله [English]

Event-Triggered Inverse Reinforcement Learning for Optimal Adaptive Leader-Follower Consensus of Unknown Multi-Agent Systems

نویسندگان [English]

  • Abbas Dideban 1
  • Zahra Jahan 2
  • Farzaneh Abdollahi 3
1 Electrical and Computer Engineering Faculty,, Semnan University
2 Faculty of Electrical Engineering, Semnan University, Semnan, Iran
3 Faculty member/Amirkabir University of Technology
چکیده [English]

This paper introduces an event-triggered inverse reinforcement learning (IRL) approach for multi-agent discrete-time graphical games with unknown dynamics. In the IRL problem for these games, the expert and the learner systems are both leader-follower multi-agent systems. The optimal synchronization of the follower agents with the leader is the objective of the expert system. Learner agents intend to imitate the control inputs and states of the expert agents, while the expert value function is unknown to them. For the learner system, an IRL algorithm using value iteration adaptive dynamic programming has been presented to recreate the unknown value function of the expert and solve the event-triggered coupled Hamiltonian-Jacobi Bellman equations with no need for the expert and learner system dynamics. To implement the presented algorithm, an actor-critic-state penalty structure is used, and the unknown dynamics of expert and learning multi-agent systems are approximated by neural network identifiers. Unlike traditional adaptive dynamic programming, where the control policies are periodically updated, in the presented method, the control policies and weights for neural networks are updated only at the triggered event. Therefore, the computational complexity has decreased. Finally, the efficiency of the recommended technique is shown through simulated results.

کلیدواژه‌ها [English]

  • Inverse reinforcement learning
  • adaptive optimal control
  • event-triggering scheme
  • optimal leader-follower consensus
  • discrete-time graphical games
  • neural networks