بازیابی و رتبه‌بندی افراد خبره با استفاده از مدل ترجمه مبتنی‌بر خوشه‌بندی

نوع مقاله : علمی-پژوهشی

نویسندگان

دانشکده مهندسی و علوم کامپیوتر - دانشگاه شهید بهشتی

چکیده

استخراج دانش از میان داده‌های موجود در وب باتوجه‌‌ ‌به حجم و تنوع بالای آن به یک چالش در حوزه‌ی بازیابی اطلاعات تبدیل شده‌است. در این میان، مسأله‌ی بازیابی و رتبه‌بندی افراد خبره با هدف بازیابی و رتبه‌بندی افراد خبره در زمینه‌ی موضوع پرس‌وجوی کاربر، به‌عنوان یکی از مهم‌ترین مسائل موجود در این حوزه توجه بسیاری از پژوهشگران را به خود جلب نموده‌است. مهم‌ترین چالش در مسئله‌ی بازیابی افراد خبره تشخیص میزان ارتباط بین کلمات پرس‌وجو و سند‌های نوشته‌شده توسط ‌نامزد‌های خبرگی است. یک مشکل اساسی در این حوزه فاصله‌ی واژگانی میان کلمات پرس‌وجو و سند‌های نامزد‌های خبرگی است. در این مقاله دو مدل ترجمه‌‌ی جدید برای مدل‌سازی فاصله‌ی واژگانی ارائه شده‌است. مدل اول یک مدل احتمالاتی مبتنی‌بر خوشه‌بندی و مدل دوم مبتنی‌بر مدل‌سازی موضوعی است. در هر دو مدل، کلمات پرس‌وجو به مجموعه‌ای از کلمات مرتبط با پرس‌وجو که بیشتر نشان‌دهنده‌ی یک زمینه‌ی خبرگی هستند ترجمه شده‌است. پس از ترجمه‌ی کلمات، از یک مدل ترکیب‌ کننده‌ به‌منظور بازیابی استفاده شده‌است. مدل‌های ارائه‌شده بر‌روی مجموعه‌ی آزمون Stack Overflow ارزیابی و تحلیل شده‌است. نتایج به‌دست‌آمده بیانگر افزایش میانگین متوسط دقت روش ارائه‌شده در مقایسه با سایر روش‌های بازیابی افراد خبره است.

کلیدواژه‌ها


عنوان مقاله [English]

Retrieve and Rank the Experts Using a Cluster-based Translation Model

نویسندگان [English]

  • M. Dehghan
  • A. A. Abin
Faculty of Computer Science and Engineering, University of Shahid Beheshti, Tehran, Iran
چکیده [English]

With respect to the increasing volume and variety of information available on the Web, it is very difficult to find the required knowledge through the massive amount of data. Question-answering systems have been created to make easy knowledge accessing through massive amounts of data. The most important factor in the issue of expert finding is the ability to detect the relationship between query words and documents written by the candidate experts. A challenging issue in this area is the vocabulary gap between query words and the documents of the candidate experts. In this paper, two new translation models are proposed to solve the problem of the vocabulary gap. First model, a cluster-based probabilistic model, and another is based on topic modeling. In these models, the query words are translated into a collection of query-related words, which are written in documents written by more candidate experts. Then, using these words and using a simple composite model, we have retrieved the experts. The proposed models are implemented and evaluated on the Stackoverflow test set and finally, we have analyzed the outputs. The results indicate an increase in the Mean Average Precision of the proposed method compared with other methods of expert finding.

کلیدواژه‌ها [English]

  • Expertise retrieval
  • translation model
  • question answering systems
  • topic modeling
  • vocabulary gap
[1]      مریم باسره، ولی درهمی و سجاد ظریف‌زاده، «ارائه‌ی روشی برای استخراج خودکار عبارات کلیدی از اخبار وب پارسی»، مجله‌ی مهندسی برق دانشگاه تبریز، دوره‌ی ۴۷ شماره‌ی ۳، صفحه 866-855، 1396.
[2]      رضا خدایی، محمدعلی بالافر و سیدناصر رضوی، «اثربخشی بسط پرس‌وجو مبتنی بر خوشه‌بندی اسناد شبه‌بازخورد با الگوریتم KNN»، مجله‌ی مهندسی برق دانشگاه تبریز، دوره‌ی 46 شماره‌ی 1، صفحه 151-143، 1395.
[3]      K. Balog, L. Azzopardi, and M. de Rijke. “A language modeling framework for expert finding.” Information Processing & Management, vol. 45, no. 1, pp. 1-19, 2009.
[4]      M. Karimzadehgan and Ch. Zhai, “Estimation of statistical translation models based on mutual information for ad hoc information retrieval”, In Proceedings of the 33rd international ACM SIGIR conference on Research and development in information retrieval, pp. 323-330. ACM, 2010.
[5]      H. Li, and J. Xu. “Semantic matching in search.” Foundations and Trends® in Information Retrieval, vol. 7, no. 5, pp. 343-469, 2014.
[6]      S. Momtazi, and F. Naumann. “Topic modeling for expert finding using latent Dirichlet allocation.” Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, vol. 3, no. 5, pp. 346-353, 2013.
[7]      C. Van Gysel, M. de Rijke, and M. Worring, “Unsupervised, efficient and semantic expertise retrieval.”, In Proceedings of the 25th International Conference on World Wide Web, pp. 1069-1079. International World Wide Web Conferences Steering Committee, 2016.
[8]      K. Balog, Y. Fang, M. de Rijke, P. Serdyukov, and L. Si, "Expertise retrieval.” Foundations and Trends® in Information Retrieval, vol. 6, no. 2–3, pp. 127-256, 2012.
[9]      C. Macdonald, and I. Ounis. ‘’Voting for candidates: adapting data fusion techniques for an expert search task.’’ In Proceedings of the 15th ACM international conference on Information and knowledge management, pp. 387-396. ACM, 2006.
[10]      M. Zhang, R. Song, C. Lin, S. Ma, Z. Jiang, Y. Jin, Y. Liu, L. Zhao, and S. Ma. “Expansion-based technologies in finding relevant and new information: Thu trec 2002: Novelty track experiments.” NIST SPECIAL PUBLICATION SP, no. 251, pp. 586-590, 2003.
[11]      Y. Cao, J. Liu, S. Bao, and H. Li. “Research on Expert Search at Enterprise Track of TREC 2005.” In TREC, 2005.
[12]      R. M. Cooke, S. ElSaadany, and X. Huang. “On the performance of social network and likelihood-based expert weighting schemes.”, Reliability Engineering & System Safety, vol. 93, no. 5, pp. 745-756, 2008.
[13]      C. D. Manning and H. Schütze, “Foundations of statistical natural language processing.”, Vol. 999, Cambridge: MIT press, 1999.
[14]      T. Mueller-Prothmann and I. Finke, “SELaKT-Social Network Analysis as a Method for Expert Localisation and Sustainable Knowledge Transfer.” J. UCS, vol. 10, no. 6, pp. 691-701, 2004.
[15]      D. M. Blei, A. Y. Ng and M. I. Jordan, “Latent dirichlet allocation.”, Journal of machine Learning research, vol. 3, no. Jan, pp. 993-1022, 2003.
[16]      Gerard. Salton, A. Wong and C. Yang, “A vector space model for automatic indexing.”, Communications of the ACM, vol. 18, no. 11, pp. 613-620, 1975.
[17]      C. Van Gysel, M. de Rijke, and M. Worring. “Unsupervised, efficient and semantic expertise retrieval.” In Proceedings of the 25th International Conference on World Wide Web, pp. 1069-1079, 2016.
[18]      S. Patil, and K. Lee. “Detecting experts on Quora: by their activity, quality of answers, linguistic characteristics and temporal behaviors.” Social network analysis and mining 6, no. 1, 2016.
[19]      A. Dargahi Nobari, S. Sotudeh Gharebagh and M. Neshati, “Skill Translation Models in Expert Finding.”, In Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 1057-1060. ACM, 2017.
[20]      A. Berger and J. Lafferty, “Information retrieval as statistical translation.”, In ACM SIGIR Forum, vol. 51, no. 2, pp. 219-226. ACM, 2017.
[21]      R. Jin, A. G. Hauptmann and C. Zhai, “Language model for information retrieval.”. In Proceedings of the 25th annual international ACM SIGIR conference on Research and development in information retrieval, pp. 42-48. ACM, 2002.
[22]      V. Lavrenko, M. Choquette and W. B. Croft, “Cross-lingual relevance models.”, In Proceedings of the 25th annual international ACM SIGIR conference on Research and development in information retrieval, pp. 175-182. ACM, 2002.
[23]      J. Nie, M. Simard, P. Isabelle and R. Durand, “Cross-language information retrieval based on parallel texts and automatic mining of parallel texts from the Web.”, In Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval, pp. 74-81. ACM, 1999.
[24]      J. Xu, R.Weischedel and C. Nguyen, “Evaluating a probabilistic model for cross-lingual information retrieval.”, In Proceedings of the 24th annual international ACM SIGIR conference on Research and development in information retrieval, pp. 105-110. ACM, 2001.
[25]      V. Murdock and W. B. Croft, “Simple translation models for sentence retrieval in factoid question answering.”, In Proceedings of the SIGIR-2004 Workshop on Information Retrieval For Question Answering (IR4QA), pp. 31-35. 2004.
[26]      D. van Dijk, M. Tsagkias and M. de Rijke, “Early detection of topical expertise in community question answering.”, In Proceedings of the 38th International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 995-998. ACM, 2015.
[27]      V. Dimitrova, T. Kuflik, D. Chin, F. Ricci, P. Dolog, and G. Houben, eds, “User Modeling, Adaptation and Personalization”, 22nd International Conference, UMAP 2014, Aalborg, Denmark, July 7-11, 2014. Proceedings. Vol. 8538. Springer, 2014.