ارائه روشی برای استخراج خودکار عبارات کلیدی از اخبار وب پارسی

نویسندگان

دانشگاه یزد - پردیس فنی و مهندسی - دانشکده مهندسی کامپیوتر

چکیده

دادگان متنی و از آن جمله متون خبری از حوزه‌های مهم بازیابی اطلاعات به شمار می‌رود و استخراج اطلاعات از آن‌ها ضروری است. این امر با استخراج عبارات کلیدی اسناد که دربردارنده محتوای اصلی متن است، صورت می‌گیرد. در این پژوهش، راهکاری سه مرحله‌ای جهت استخراج عبارات کلیدی از صفحات خبری وب پارسی، با ترکیب شیوه‌های زبان‌شناختی، یادگیری با ناظر، ابتکاری و تعداد نسبتاً جامعی از شیوه‌های آماری ارائه می‌شود. همچنین، یک مجموعه داده خبری و لیستی از عبارات توقفی خبری ایجاد می‌گردد. در پژوهش حاضر، با توجه به ویژگی‌های دادگان، از دسته‌بند جنگل تصادفی استفاده و عملکرد خوب آن به کمک نتایج آزمایش‌ها ثابت می‌شود. به علاوه، استفاده از امتیاز تعلق‌گرفته به عبارات توسط دسته‌بند، جهت ایجاد لیستی مرتب از عبارات برای دسته‌بندی، به جای استفاده ازخروجی دسته‌بند، پیشنهاد می‌شود. نتایج، نشان‌دهنده دقت قابل‌قبول سیستم ارائه‌شده است.

کلیدواژه‌ها


عنوان مقاله [English]

A Method for Automatic Key phrase Extraction from Persian Web News

نویسندگان [English]

  • M. Basereh
  • V. Derhami
  • S. Zarifzadeh
Faculty of Electrical and Computer Engineering, University of Yazd, Yazd, Iran
چکیده [English]

Text documents, especially news, are one of the important information retrieval fields which are necessary to extract information. This job, is done by extracting key phrases which include the main context of the news. In this research, a three level approach combining lingual, supervised learning, heuristic, and a relatively comprehensive number of statistical approaches, is suggested for key phrase extraction from Persian news web pages. A news dataset and a stop word list are generated. In this research, according to the data characteristics, Random Forest classifier is used; and its good performance is proved through experiments. Furthermore, using scores given by classifier to phrases, to build an ordered list of phrases, for classification, instead of using the classifier output, is suggested. Results show an acceptable f-measure.

کلیدواژه‌ها [English]

  • Keyphrase
  • keyphrase extraction
  • news texts
  • statistical techniques
  • supervised learning
  • text mining
  • information retrieval