استفاده از تئوری آشوب جهت تعادل بین کاوش و بهره‌گیری در یادگیری تقویتی عمیق

نوع مقاله : علمی-پژوهشی

نویسندگان

1 دانشکده مهندسی کامپیوتر، پردیس فنی و مهندسی، دانشگاه یزد، یزد، ایران

2 دانشکده مهندسی برق و کامپیوتر، پردیس فنی و مهندسی، دانشگاه یزد، یزد، ایران

چکیده

یادگیری تقویتی عمیق به طور گسترده‎ای در مسائل یادگیری ماشینی استفاده می‎شود و استفاده از روش‎هایی جهت بهبود کارکرد آن حائز اهمیت است. تعادل بین کاوش و بهره گیری یکی از مسائل مهم در یادگیری تقویتی است و برای این منظور از روش های انتخاب عملی که همراه با کاوش هستند همچون شبه حریصانه و بیشینه‌نرم استفاده می شود. در این روش ها به کمک تولید اعداد تصادفی و مقدار ارزش عمل، عملی انتخاب می شود که بتواند این تعادل را برقرار کند. در طول زمان با کاوش مناسب می توان انتظار داشت که محیط بهتر شناخته شده و اعمال باارزش بیشتر شناسائی شوند. آشوب با داشتن ویژگی هائی همچون حساسیت زیاد به شرایط اولیه، غیر تناوبی، غیر قابل پیش بینی، بازدید از همه حالت های فضای جستجو و رفتار شبه تصادفی، دارای کاربردهای فراوانی است. در این مقاله، از اعداد تولیدی توسط سیستم های آشوبناک جهت استفاده در روش‌ انتخاب عمل شبه حریصانه در یادگیری تقویتی عمیق به منظور بهبود تعادل بین کاوش و بهره گیری، استفاده می شود؛ علاوه بر آن تاثیر استفاده از آشوب در حافظه تکرار تجارب نیز بررسی خواهد شد. آزمایش های انجام شده در محیط Lunar Lander ، نشان دهنده افزایش قابل توجه سرعت یادگیری و کسب جایزه بیشتر در این محیط است

کلیدواژه‌ها

موضوعات


عنوان مقاله [English]

Employing Chaos Theory for Exploration–Exploitation Balance in Deep Reinforcement Learning

نویسندگان [English]

  • Habib Khodadadi 1
  • Vali Derhami 2
1 Department of Computer Engineering, Yazd University, Yazd, Iran
2 Department of Computer Engineering, Yazd University, Yazd, Iran.
چکیده [English]

Deep reinforcement learning is widely used in machine learning problems and the use of methods to improve its performance is important. Balance between exploration and exploitation is one of the important issues in reinforcement learning and for this purpose, action selection methods that involve exploration such as ɛ-greedy and Soft-max are used. In these methods, by generating random numbers and evaluating the action-value, an action is selected that can maintain this balance. Over time, with appropriate exploration, it can be expected that the environment becomes better understood and more valuable actions are identified. Chaos, with features such as high sensitivity to initial conditions, non-periodicity, unpredictability, exploration of all possible search space states, and pseudo-random behavior, has many applications. In this article, numbers generated by chaotic systems are used for the ɛ-greedy action selection method in deep reinforcement learning to improve the balance between exploration and exploitation; in addition, the impact of using chaos in replay buffer will also be investigated. Experiments conducted in the Lunar Lander environment demonstrate a significant increase in learning speed and higher rewards in this environment

کلیدواژه‌ها [English]

  • Action selection
  • chaos theory
  • deep reinforcement learning
  • exploration and exploitation