یک چارچوب یادگیری تقویتی عمیق عامل-منتقد برای تصمیم‌گیری متوالی چند هدفه

نوع مقاله : علمی-پژوهشی

نویسندگان

1 عضو هیات علمی دانشگاه تربیت مدرس تهران

2 کارشناسی ارشد دانشگاه تربیت مدرس

چکیده

تصمیم‌گیری متوالی، شرایطی را توصیف می‌کند که در آن تصمیم‌گیرنده قبل از اینکه تصمیم نهایی گرفته شود، به صورت پیاپی مشاهداتی از یک فرآیند انجام می‌دهد. در کاربردهای دنیای واقعی، مسائل تصمیم‌گیری متوالی چند هدفه رایج بوده و چالش‌های متعددی را برای پژوهشگران فراهم می‌کند. بیشتر پژوهش‌ها در این حوزه به طور سنتی بر روی موقعیت‌هایی با یک هدف تمرکز داشته‌اند و یا با ترکیب هدف‌ها به یک هدف واحد، مسئله چند هدفه را به مسئله یک هدفه تبدیل کرده‌اند. در این مقاله، یک چارچوب یادگیری تقویتی عمیق چند هدفه، "MACA" بر اساس روش عامل-منتقد ارائه شده است تا در محیط‌های پویا، هدف‌های متعارض چندگانه را در طول زمان بهینه کرده و تعادل بخشد. این چارچوب به ازای اهداف مختلف، سیاست‌های مختلفی را یاد گرفته و در نهایت این سیاست‌ها را به یک سیاست بهینه‌ی سراسری همگرا می‌کند. برای ارزیابی این چارچوب، روش پیشنهادی در مسئله‌ی سیستم‌های توصیه‌گر و برای دو هدف متناقض صحت تصمیم‌گیری (مورد پسند بودن اقلام توصیه شده برای کاربران) و انصاف (انتخاب شدن اقلام توصیه شده از همه‌ی دسته‌ها) پیاده‌سازی و با سایر روش‌های اخیر یادگیری تقویتی چند هدفه مقایسه شده است. نتایج آزمایشی روی مسئله‌ی محک (سامانه‌های توصیه‌گر) نشان می‌دهد که این چارچوب نسبت به کارهای قبلی نتایج بهتری از نظر عملکرد (صحت ۹۲.۵ و انصاف ۹۶.۵ در مجموعه داده Kiva و صحت ۹۳.۱ و انصاف ۹۷.۶ در مجموعه داده MovieLens)، زمان همگرایی و مصرف حافظه دارد. همچنین، چارچوب پیشنهادی نسبت به تعداد اهداف مقیاس‌پذیر بوده و بهینه‌سازی تعداد متغیر اهداف را امکان‌پذیر می‌کند.

کلیدواژه‌ها


عنوان مقاله [English]

An Actor-Critic Deep Reinforcement Learning Framework for Multi-objective Sequential Decision-making

نویسندگان [English]

  • Mehdy Roayaei 1
  • Mohammad Amir Rezaei Gazik 2
1 Faculty Tarbiat Modares University,, Tehran, Iran
2 Graduate Student at Tarbiat Modares University
چکیده [English]

Sequential decision making describes a situation where the decision maker makes successive observations of a process before a final decision is made. In real-world scenarios, multi-objective sequential decision-making problems have been common and pose multiple challenges for researchers in decision-making. Most studies in this area have traditionally focused on single-objective situations or converted multi-objective problems into single-objective ones by combining objectives into a single goal. In this article, a multi-objective deep reinforcement learning framework called "MACA," based on the actor-critic method is presented, to optimize and balance multiple conflicting objectives in dynamic environments over time. This framework learns different policies for various objectives and eventually converges them to a global optimal policy. This framework, is evaluated in the domain of recommender systems for two conflicting objectives: accuracy (the desirability of recommended items for users) and fairness (the selection of recommended items from all categories); and, compared with other recent multi-objective reinforcement learning methods. Experimental results on the benchmark problem (recommender systems) demonstrate that this framework outperforms previous works in terms of performance (the accuracy was 92.5% with a fairness score of 96.5% on the Kiva dataset, and 93.1% accuracy with a fairness score of 97.6% on the MovieLens dataset), convergence time, and memory consumption. Moreover, the proposed framework is scalable with respect to the number of objectives and enables optimization of the variable number of objectives.

کلیدواژه‌ها [English]

  • Deep reinforcement learning‎
  • ‎Recommender system‎
  • ‎Actor-Critic‎
  • ‎Multi-objective decision making