استفاده از شبکه‌های مولد تخاصمی در افزایش کارایی دسته بندی نظرات نامتعادل کاربران

نوع مقاله : علمی-پژوهشی

نویسندگان

1 دانشگاه صنعتی شاهرود

2 هوش مصنوعی، مهندسی کامپیوتر، دانشگاه صنعتی شاهرود، شاهرود، ایران

چکیده

روش‌های تولید متن برای تولید خودکار متون زبان طبیعی از هوش مصنوعی استفاده می‌کنند. یکی از کاربردهای تولید متن در دسته‌بندی متن است. بسیاری از مسائل دنیای واقعی با داده‌های متنی نامتعادل در ارتباط هستند که می‌تواند کارایی دسته‌بندی را کاهش دهد. یک رویکرد حل مشکل داده‌های نامتعادل، بیش-نمونه‌برداری از کلاس اقلیت است. با توجه به پیشرفت شبکه‌های مولد تخاصمی (GAN) در تولید داده، می‌توان از این شبکه‌ها برای تولید نمونه‌های متنی در بیش‌نمونه‌برداری استفاده کرد. تولید متن به کمک شبکه‌های مولد تخاصمی به دلیل ماهیت گسسته متن مسئله‌ای پیچیده است. علیرغم پتانسیل آن‌ها، استفاده این شبکه‌ها در حل مشکل داده‌های متنی نامتعادل به ندرت مورد بررسی قرار گرفته است. این مقاله به بررسی تاثیر استفاده از شبکه‌ی SentiGAN بر حل مشکل عدم تعادل نظرات کاربران با هدف بهبود کارایی دسته‌بندی می‌پردازد. بعد از ارائه روش پیشنهادی و چارچوب ارزیابی، چهار الگوریتم دسته‌بندی بر روی داده‌ها اجرا شده و معیارهای ارزیابی مختلف پیش و پس از بیش‌نمونه‌برداری محاسبه و تحلیل شده‌اند. هم‌چنین نتایج با روش‌های بیش‌نمونه‌برداری سنتی و اخیر مقایسه شده است. بیش‌نمونه‌برداری با روش پیشنهادی باعث افزایش معیار‌های صحت، دقت و تشخیص‌پذیری، و امتیاز اف دسته‌بندی داده‌های اقلیت نسبت به داده‌های نامتعادل و همچنین در مقایسه با روش‌های دیگر بیش‌نمونه‌برداری می‌شود.

کلیدواژه‌ها


عنوان مقاله [English]

Using generative adversarial networks to increase the classification efficiency of imbalanced user reviews

نویسندگان [English]

  • Hoda Mashayekhi 1
  • Bahareh Javid 2
1 Computer Engineering Department,, Shahrood University of Technology
2 Faculty of Computer Engineering, Shahrood University of Technology, Shahrood, Ir
چکیده [English]

Text generation methods use artificial intelligence to automatically generate natural language texts. One of the uses of text generation is in text classification. Many real-world problems are related to imbalanced textual data, which can reduce classification efficiency. One approach to solving the imbalanced data problem is the minority class oversampling. Due to the progress of generative adversarial networks (GAN) in data generation, these networks can be used to generate text samples in oversampling. Generating text using GANs is a complex problem due to the discrete nature of text. Despite their potential, the use of these networks in solving the problem of imbalanced textual data has rarely been investigated. This article examines the effect of using the SentiGAN network to solve the problem of imbalanced user reviews with the aim of improving the classification efficiency. To evaluate the proposed method, before and after oversampling with traditional, recent and SentiGAN methods, four classification algorithms were implemented on the data and evaluation criteria were calculated. It was observed that oversampling with the help of SentiGAN has increased the accuracy, precision, specificity and f_score of zero class compared to the situation where the data is imbalanced or even is oversampled by the other methods.

کلیدواژه‌ها [English]

  • Generative adversarial networks (GAN)
  • imbalanced text classification
  • oversampling
  • imbalanced text
  • classification