تشخیص هوشمند و خودکار غلط‌های تایپی در پایگاه‌داده‌های بزرگ بدون استفاده از لغت‌نامه

نویسندگان

1 دانشگاه آزاد اسلامی واحد تبریز - گروه مهندسی کامپیوتر

2 دانشگاه تبریز - دانشکده مهندسی برق و کامپیوتر - گروه مهندسی کامپیوتر

3 دانشگاه آزاد اسلامی واحد خسروشاه - گروه مهندسی کامپیوتر

چکیده

غلط‌های تایپی یکی از مشکلات مهم در سیستم‌های کامپیوتری و سیستم‌های پایگاه‌داده‌ای است. وجود غلط‌های تایپی در پایگاه‌داده‌ها نه تنها از نظر صحت پایگاه‌داده مشکل‌ساز هستند، بلکه باعث می‌شوند به هنگام ضرورت نتوان رکورد واردشده را بازیابی کرد. همین امر گاه باعث می‌شود که کاربر مجدداً همان رکورد را وارد پایگاه‌داده نماید که منجر به وجود آمدن افزونگی می‌گردد. روش‌های موجود تشخیص غلط‌ها، مبتنی بر لغت‌نامه هستند. بدین معنی که از یک لغت‌نامه بزرگ که همه لغات آن صحیح فرض می‌شوند استفاده می‌کنند و اگر کلمه‌ای در لغت‌نامه نباشد به‌عنوان غلط تایپی شناخته می‌شود. تهیه لغت‌نامه‌ای بزرگ و با دقت بالا بسیار پرهزینه و زمان‌بر است. به‌علاوه چنین لغت‌نامه‌ای مختص یک زمینه خاص (مثلاً محیط پزشکی) است و قابل‌استفاده و در زمینه‌های دیگر (مثلاً جامعه‌شناسی) نیست. در این مقاله روشی ارائه می‌شود که بدون نیاز به لغت‌نامه می‌تواند غلط‌های تایپی را تشخیص دهد. روش پیشنهادی با چند معیار مرسوم ارزیابی شده است. نتایج آزمایش‌ها نشان‌دهنده دقت 93.5 درصدی برای این روش است. علاوه‌بر دقت بالای روش پیشنهادی، عدم‌نیاز به لغت‌نامه یک ویژگی منحصر به فرد برای آن به‌شمار می‌رود.

کلیدواژه‌ها


عنوان مقاله [English]

The Intelligent and Automatic Detection of Type Errors in Large Databases without using Dictionary

نویسندگان [English]

  • E. Zafarani-Moattar 1
  • M. R. Feizi-Derakhshi 2
  • A. Roohany 3
1 Department of Computer Engineering, Tabriz Branch, Islamic Azad University, Tabriz, Iran
2 Department of Computer Engineering, University of Tabriz, Tabriz, Iran
3 Department of Computer Engineering, Khosroshah Branch, Islamic Azad University, Khosroshah, Iran
چکیده [English]

Type errors are one of the main problems in computer systems and database systems. Existence of type errors within databases, not only causes accuracy problem for database, but also leads user to re-enter the record into database because the entered record could not be found. It results in redundancy. The existing error detection methods are based on dictionary. It means that they use a large dictionary whose all words are assumed true and if a word is not in the dictionary, it is detected as a type error. Providing a large dictionary with high precision is expensive and time consuming. In addition, such a dictionary belongs to a special field (for example, medical environment) and is not applicable in other fields (such as sociology). In this paper, a method is presented that could detect type errors without requiring a dictionary. The proposed method has been evaluated with some common criteria. The experimental results show 93.5 percent precision for this method. In addition to the high precision of the proposed method, not requiring a dictionary is considered as its unique feature.

کلیدواژه‌ها [English]

  • Detection of type errors
  • spelling errors
  • Fuzzy