ارائه روشی برای استخراج خودکار عبارات کلیدی از اخبار وب پارسی

باسره, مریم; درهمی, ولی; ظریف‌زاده, سجاد

ارائه روشی برای استخراج خودکار عبارات کلیدی از اخبار وب پارسی

نویسندگان

دانشگاه یزد - پردیس فنی و مهندسی - دانشکده مهندسی کامپیوتر

چکیده

دادگان متنی و از آن جمله متون خبری از حوزه‌های مهم بازیابی اطلاعات به شمار می‌رود و استخراج اطلاعات از آن‌ها ضروری است. این امر با استخراج عبارات کلیدی اسناد که دربردارنده محتوای اصلی متن است، صورت می‌گیرد. در این پژوهش، راهکاری سه مرحله‌ای جهت استخراج عبارات کلیدی از صفحات خبری وب پارسی، با ترکیب شیوه‌های زبان‌شناختی، یادگیری با ناظر، ابتکاری و تعداد نسبتاً جامعی از شیوه‌های آماری ارائه می‌شود. همچنین، یک مجموعه داده خبری و لیستی از عبارات توقفی خبری ایجاد می‌گردد. در پژوهش حاضر، با توجه به ویژگی‌های دادگان، از دسته‌بند جنگل تصادفی استفاده و عملکرد خوب آن به کمک نتایج آزمایش‌ها ثابت می‌شود. به علاوه، استفاده از امتیاز تعلق‌گرفته به عبارات توسط دسته‌بند، جهت ایجاد لیستی مرتب از عبارات برای دسته‌بندی، به جای استفاده ازخروجی دسته‌بند، پیشنهاد می‌شود. نتایج، نشان‌دهنده دقت قابل‌قبول سیستم ارائه‌شده است.

کلیدواژه‌ها

عنوان مقاله [English]

A Method for Automatic Key phrase Extraction from Persian Web News

نویسندگان [English]

M. Basereh
V. Derhami
S. Zarifzadeh

Faculty of Electrical and Computer Engineering, University of Yazd, Yazd, Iran

چکیده [English]

Text documents, especially news, are one of the important information retrieval fields which are necessary to extract information. This job, is done by extracting key phrases which include the main context of the news. In this research, a three level approach combining lingual, supervised learning, heuristic, and a relatively comprehensive number of statistical approaches, is suggested for key phrase extraction from Persian news web pages. A news dataset and a stop word list are generated. In this research, according to the data characteristics, Random Forest classifier is used; and its good performance is proved through experiments. Furthermore, using scores given by classifier to phrases, to build an ordered list of phrases, for classification, instead of using the classifier output, is suggested. Results show an acceptable f-measure.

کلیدواژه‌ها [English]

Keyphrase
keyphrase extraction
news texts
statistical techniques
supervised learning
text mining
information retrieval

دوره 47، شماره 3 - شماره پیاپی 81
آذر 1396
صفحه 857-866

تعداد مشاهده مقاله: 1,137
تعداد دریافت فایل اصل مقاله: 1,341

ارائه روشی برای استخراج خودکار عبارات کلیدی از اخبار وب پارسی

A Method for Automatic Key phrase Extraction from Persian Web News

دوره 47، شماره 3 - شماره پیاپی 81
آذر 1396
صفحه 857-866

فایل ها

هم رسانی

ارجاع به این مقاله

آمار

ارائه روشی برای استخراج خودکار عبارات کلیدی از اخبار وب پارسی

A Method for Automatic Key phrase Extraction from Persian Web News

دوره 47، شماره 3 - شماره پیاپی 81آذر 1396صفحه 857-866

فایل ها

هم رسانی

ارجاع به این مقاله

آمار

دوره 47، شماره 3 - شماره پیاپی 81
آذر 1396
صفحه 857-866