اثربخشی بسط پرس‌وجو مبتنی بر خوشه‌بندی اسناد شبه‌بازخورد با الگوریتم K-NN

نویسندگان

دانشگاه تبریز - دانشکده مهندسی برق و کامپیوتر

چکیده

بسط پرس‌وجو یکی از روش‌های مؤثر در بهبود اثربخشی نتایج بازیابی اطلاعات است. روش بازخورد شبه‌مرتبط (PRF) فرض می‌کند که اسناد رتبه‌بالا از نتایج اولیه بازیابی‌شده مرتبط به پرس‌وجو است و تعدادی کلمه مرتبط را از اسناد رتبه‌بالا برای بسط انتخاب می‌کند. وجود اسناد نامرتبط در بین اسناد رتبه بالا محققان را به ارائه روش‌هایی برای انتخاب بهترین اسناد به‌عنوان منبع برای انتخاب کلمه بسط سوق می‌دهد که انتخاب بهترین اسناد برای استخراج کلمات مرتبط برای بسط، موضوع مهمی در روش‌های بسط پرس‌وجو هست. در این مقاله، از خوشه‌بندی اسناد شبه‌بازخورد (CPRF) حاصل از نتایج اولیه، بر اساس شباهت مبتنی بر کلمه برای قرار دادن شبیه‌ترین اسناد کنار هم استفاده می‌شود. تعدادی از خوشه‌ها طبق محتوایشان به‌عنوان خوشه‌های بازخورد انتخاب می‌شوند و از خوشه‌های بازخورد، اسناد رتبه‌بالا به‌عنوان اسناد بازخورد انتخاب می‌شوند. سپس، یک سند ترکیبی از روی اسناد انتخابی تشکیل می‌شود و کلمات سند ترکیبی بر اساس تابع رتبه‌بندی TF-IDF مرتب می‌شوند. بعد، کلمات رتبه بالا برای بسط انتخاب می‌شوند. آزمایش‌های انجام‌گرفته روی مجموعه داده پزشکی MED نشان می‌دهد روش پیشنهادی معیار متوسط میانگین دقت (MAP) بالاتری نسبت به روش بازخورد شبه‌مرتبط (PRF) دارد.

کلیدواژه‌ها


   [1]      R. Krovetz, "Homonymy and polysemy in information retrieval," Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics and 8th Conference of the European Chapter of the Association for Computational Linguistics, pp. 72-79, 1997.
   [2]      A. Spink, and B.J. Jansen, A Study of Web Search Trends, Available online at: http://www.webology.ir/2004/v1n2/-
a4.html/.
   [3]      M. Sanderson, "Ambiguous queries: test collections need more sense," Proceedings of the 31st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 499-506, 2008.
   [4]      J. Xu, and W.B. Croft, "Query expansion using local and global document analysis.," Proceedings of the 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 4-11, 1996.
   [5]      J.X. Huang, J. Miao, and B. He, "High performance query expansion using adaptive co-training," Information Processing and Management, vol. 49, pp. 441-453, 2013.
   [6]      K.S. Lee, and W.B. Croft, "A deterministic resampling method using overlapping document clusters for pseudo-relevance feedback," Information Processing and Management, vol. 49, pp. 792-806, 2013.
   [7]      S. Bashir, "Improving retrievability with improved cluster-based pseudo-relevance feedback selection," Expert Systems with Applications, vol. 39, pp. 7495-7502, 2012.
   [8]      V. Lavrenko, and W.B. Croft, "Relevance based language models," Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 120-127, 2001.
   [9]      K.S. Lee, Y.C. Park, and K.S. Choi, "Re-ranking model based on document clusters," Information Processing and Management, vol. 37, pp. 1-14, 2001.
[10]      K.S. Lee, K. Kageura, and K.S. Choi, "Implicit ambiguity resolution using incremental clustering in cross-language information retrieval," Information Processing and Management, vol. 40, pp. 145-159, 2004.
[11]      T. Anastasios, and C.J. Van-Rijsbergen, “Query-sensitive similarity measures for information retrieval,” Knowledge and Information Systems, vol. 6, no. 5, pp. 617-642, 2004.
[12]      G. Salton, A. Wong, and C.S. Yang, "A vector space model for automatic indexing," Communications of the ACM, vol. 18, pp. 613-620, 1975.
[13]      D. Hiemstra, "A linguistically motivated probabilistic model of information retrieval," Research and Advanced Technology for Digital Libraries, pp. 569-584, 1998.
[14]      U.O. Glascow, (2014/03), Medline collection, Available online at: http://ir.dcs.gla.ac.uk/resources/test_collections-
/medl/.
[15]      J.J. Rocchio, Relevance Feedback in Information Retrieval, 1971.
[16]      T. Sakai, T. Manabe, and M. Koyama, "Flexible pseudo-relevance feedback via selective sampling," ACM Transactions on Asian Language Information Processing, vol. 4, pp. 111-135, 2005.
[17]      A.L. Kaczmarek, "Interactive query expansion with the use of clustering-by-directions algorithm," IEEE Transactions on Industrial Electronics, vol. 58, pp. 3168-3173, 2011.
[18]      G. Bordogna, A. Campi, G. Psaila, and S. Ronchi, "Disambiguated query suggestions and personalized content-similarity and novelty ranking of clustered results to optimize web searches," Information Processing and Management, vol. 48, pp. 419-437, 2012.
[19]      N. Jardine, and C.J. Van-Rijsbergen, "The use of hierarchic clustering in information retrieval," Information Storage and Retrieval, vol. 7, pp. 217-240, 1971.
[20]      T. Strohman, D. Metzler, H. Turtle, and W.B. Croft, "Indri: a language model-based search engine for complex queries," Proceedings of the International Conference on Intelligent Analysis, pp. 2-6,  2005.