ارائه یک روش مبتنی بر گرایش معنایی برای طبقه‌بندی چندبرچسبی محتوای فیلم‌ها به‌کمک متون زیرنویس آن‌ها

نویسندگان

دانشگاه اراک - دانشکده فنی و مهندسی - گروه مهندسی کامپیوتر

چکیده

پی‌بردن به محتوای تصاویر متحرک و ژانر آن‌ها، همواره امری پیچیده و مسئله‌ای باز برای پژوهشگران بوده است. فعالیت‌های متعددی توسط پژوهشگران برای پی‌بردن به محتوای فیلم‌ها انجام پذیرفته است. اکثر فعالیت‌های صورت‌گرفته در این زمینه با استفاده از پردازش صوت یا تصویر فیلم‌ها بوده است. اخیراً گروهی از پژوهشگران ایده استفاده از متون زیرنویس فیلم‌ها را برای پی‌بردن به محتوای فیلم‌ها مطرح نموده و پردازش متن را سریع‌تر و ساده‌تر از پردازش صوت و تصویر قلمداد نموده‌اند. در این مقاله یک روش مبتنی بر گرایش معنایی برای طبقه‌بندی ژانر در داده چندبرچسبی زیرنویس فیلم‌ها ارائه شده است. برای این‌کار ابتدا یک روش استخراج ویژگی برای استخراج ویژگی‌های یکتا از هر ژانر ارائه شده است. سپس روشی ارائه شده که در آن با محاسبه گرایش معنایی یک زیرنویس به هر ژانر، به پیش‌بینی چندبرچسبی ژانرهای زیرنویس پرداخته می‌شود. درنهایت نیز به‌کمک روش‌های استخراج قوانین باهم‌آیی، ارتباط بین ژانرها در داده خام کشف شده و به‌کمک این قوانین به اصلاح ژانرهای پیش‌بینی‌شده پرداخته می‌شود. نتایج به‌دست‌آمده، بهبود قابل توجه دقت روش پیشنهادی را نسبت به روش‌های پیشین به نمایش می‌گذارد.

کلیدواژه‌ها


عنوان مقاله [English]

Presenting a Semantic Orientation Based Method for Multi-Label Classification of Movies Content Using Their Subtitle Texts

نویسندگان [English]

  • F. Ghanbari
  • M. Rahmani
Faculty of Engineering, Department of Computer Engineering, Arak University, Arak, Iran
چکیده [English]

Understanding movies content and their genre, is always a complex and open issue to researchers. Several activities have been carried out by researchers to find out movies content. Most of the activities conducted in this area have been using audio processing or video processing. Recently a group of researchers have proposed the idea of using movies subtitle texts to understand movies content and considered text processing faster and easier than audio and image processing. In this paper a semantic orientation based method is presented for genre classification in multi-label data of movies subtitles. To do this, a feature extraction method is presented to extract unique features of each genre. Then a method is presented, in which with calculation of a subtitles semantic orientation to each genre, subtitles genres are predicted. Finally, using association rule mining methods, the relationship between genres in raw data is discovered and using these rules, predicted genres have been modified. Obtained results indicate significant improvement of proposed method compared to previous methods.

کلیدواژه‌ها [English]

  • Movie genre classification
  • text mining
  • natural language processing
  • semantic orientation
  • Multi-label classification
  • association rule mining