تعیین مشابهت معنایی به روش بدون‌سرپرست با استفاده از قدم‌زنی تصادفی بر گراف جایگزینی زبانی

نویسندگان

1 دانشگاه یزد - گروه مهندسی کامپیوتر

2 محقق ارشد در موتور جستجوی پارسی‌جو

3 مدیر پروژه موتور جستجوی پارسی‌جو

چکیده

این مقاله به معرفی روشی برای تعیین مشابهت معنایی کلمات با استفاده از پیکره‌های تنک می‌پردازد. این روش با ارائه مفهوم جایگزین‌پذیری غیرمستقیم برای اولین بار و پیاده‌سازی آن از طریق گراف جایگزین‌پذیری عبارت‌ها توانسته است بر مشکل تنک بودن فضای زمینه در زبان‌های با منابع محدودتر مانند فارسی غلبه نماید. از طرف دیگر باید به این نکته اشاره نمود که برای تولید گراف جایگزینی لازم برای تعیین مشابهت معنایی می‌توان از پیکره‌های متنی به صورت مستقل از زبان بهره گرفت. نتایج ارزیابی‌ها با استفاده از دادگان آزمون مجموعه RG-65 که از دادگان متداول برای ارزیابی کیفیت تعیین مشابهت معنایی است، نشان می‌دهد که مقدار ضریب همبستگی Spearman این روش بین 0.03 تا 0.13 واحد بیش از سایر روش‌های بدون سرپرست موفق است.

کلیدواژه‌ها


عنوان مقاله [English]

Unsupervised Semantic Similarity Estimation using Random Walk on Lexical Substitution Graph

نویسندگان [English]

  • F. Kaveh-Yazdy 1 2
  • A. M. Zareh-Bidoki 1 3
  • M. R. Pajoohan 1
1 Department of Computer Engineering, Yazd University, Yazd, Iran
2 Senior Researcher at Parsijoo Persian Search Engine
3 Head of Parsijoo Persian Search Engine
چکیده [English]

This paper introduces the indirect substitutability relation for the first time to provide a practical solution for estimating semantic similarity. Proposed method is an unsupervised semantic similarity estimation method, which is benefitted from taking into account the indirect substitutability relation. This method recognizes the substitutability between two terms by considering a third term, which has similar lexical context with each of them separately. To model this relation, we generate a graph using substitutable pairs of terms. The strength of the relation between each pair of terms is approximated by propagating semantic score through the substitutability graph. This method is language independent and uses only textual corpora to generate the substitution graph. Furthermore, it supports semantic similarity estimation in languages suffering from lack of dense corpora. Results of our experiments using RG-65 Persian dataset show that the proposed method outperforms the baseline algorithms. The proposed method improves the estimation from 0.03 Spearman's correlation up to 0.13 in comparison with the baseline algorithms.

کلیدواژه‌ها [English]

  • Semantic Similarity
  • Lexical Substitution
  • Substitution Graph
  • Random Walk
  • Corpus
  • Wikipedia