Publication: An improved K-nearest neighbor with grasshopper optimization algorithm for missing data imputation
dc.contributor.affiliation | #PLACEHOLDER_PARENT_METADATA_VALUE# | en_US |
dc.contributor.author | Nadzurah Zainal Abidin | en_US |
dc.contributor.supervisor | Amelia Ritahani Ismail, PhD | en_US |
dc.date.accessioned | 2024-10-08T07:42:26Z | |
dc.date.available | 2024-10-08T07:42:26Z | |
dc.date.issued | 2020 | |
dc.description.abstract | Concurrent with the advanced of data cleaning process, missing data have been influentially known as one of the most common issues encountered for many research area. A real collected dataset such as medical, business, transportation and education are prone to be incomplete or missing especially when the respondents does not respond due to stress, fatigue or inadequacy of knowledge, some of the questions given are sensitive, and lack of option answers presented. One of the mechanisms in solving missing data is through imputation, which is the activity of substituting missing values with plausible records that yield to reasonable accuracy against actual values. A huge number of imputation algorithm has been proposed to estimate the missing values. Unfortunately, most imputation method employed provide less reliable estimations for missing data. Therefore, to accurately deal with missing data, an optimization of one of the state-of-the-art imputation algorithm, K-nearest neighbors (KNN), are proposed to impute those missing values. KNN algorithm has been widely adopted as an imputation algorithm for missing data due to its robustness and simplicity and it is also a promising method to outperform other machine learning methods. However, in many cases, KNN suffers from high computational cost, greater storage requirements, sensitive to noise, high time complexity, and difficult to choose the right centroid position and choice of different function for measuring the distance. Therefore, a conventional way of KNN computes an imputation method still imposes undesirable results. Accordingly, this thesis proposes to develop an optimized KNN imputation method with Grasshopper optimization algorithm (GOA) to present a better imputation result. Grasshopper optimization algorithm is a recent population based metaheuristics which have shown an improved results and efficiencies in tackling issues with missing data. The GOA is incorporated in the algorithm structure, inspired from the natural behavior of grasshopper that maximizes the imputation performance of KNN. The performances of the proposed algorithm will be applied to nine different datasets and compared with other optimization algorithms: Particle Swarm Optimization (PSO), Genetic Algorithm (GA), Dragonfly Optimization (DA), Firefly Algorithm (FFA), Ant Lion Optimization (ALO), and Moth Flame Optimization (MFO), in terms of statistical correlation, error accuracy, and running time. The results show KNNGOA has the most promising performance and outperform among other optimization algorithms with regards to imputation accuracy and fastest time computing for datasets that are large and higher percentage in missing rates (20 percent and above). The analysis of statistical test is also conducted which supports the conclusion of the experiment. | en_US |
dc.description.abstractarabic | بالتزامن مع التقدم في عملية تنقيب البيانات ، تعتبر البيانات المفقودة واحده من أكثر المشكلات شيوعًا التي واجهتها العديد من مجالات البحث. من المحتمل أن تكون مجموعة البيانات الحقيقية كالبيانات الطبية ، والأعمال التجارية ، والنقل ، والتعليم غير مكتملة أو مفقودة ، وذلك بسبب الإجهاد أو التعب أو نقص في المعرفة ، وايضا تساهم عدم الاجابة على بعض الاسئلة في جعل البيانات ناقصة. يعتبر التضمين إحدى آليات حل البيانات المفقودة. وتتم من خلال التعويض عن القيم المفقودة بقيم معقولة الدقة. و لقد تم اقتراح عدد كبير جدا من خوارزميات التخمين لتقدير القيم المفقودة. لسوء الحظ ، ان معظم طرق التقدير المستخدمة تُقدم تقديرات أقل موثوقية للبيانات المفقودة. لذلك ، للتعامل بدقة مع البيانات المفقودة ، يُقترح تحسين إحدى الخوارزميات وهي خوارزمية الجار الأقربK Nearest Neighbor algorithm (KNN) لتقدير القيم. تُستخدم خوارزمية KNN على نطاق واسع نظرًا لقوتها وبساطتها ، كما أنها تتفوق على أساليب التعلم الآلي الأخرى. ومع ذلك ، في كثير من الحالات ، تعاني KNN من تكلفة حسابية عالية , متطلبات تخزين أكبر ,حساسة للاخطاء, تحتاج الى الكثير من للوقت ,صعوبة اختيار موقع centroid المناسب ,وصعوبة اختيار طريقة لقياس المسافة. لذلك ، فإن الطريقة التقليدية لاستخدام KNN في عملية التضمين لا تزال تؤدي الى نتائج غير مرغوب فيها. وفقًا لذلك ، يقترح هذا البحث تطوير خوارزمية KNN مع خوارزمية Grasshopper Optimization Algorithm (GOA) من خلال خوارزمية (KNNGOA) لتقديم نتيجة أفضل لعملية التخمين. تعد خوارزمية (GOA) طريقة تحسين جديدة وقد أظهرت نتائج وفعالية محسنة في معالجة المشكلات المتعلقة بالبيانات المفقودة. وهي مستوحاة من السلوك الطبيعي للجندب . سيتم تطبيق أداء الخوارزمية المقترحة على تسع مجموعات بيانات مختلفة ومقارنتها بخوارزميات التحسين الأخرى مثل : Particle Swarm Optimization (PSO)، (GA)Genetic Algorithm، Dragonfly Optimization (DA), Firefly Algorithm (FFA)، (ALO) Ant Lion Optimization, Moth Flame Optimization (MFO) من حيث الارتباط الإحصائي ، دقة الخطأ ، ووقت التشغيل. وقد اظهرت النتائج أن KNNGOA لديه الأداء المتفوق بين خوارزميات التحسين الأخرى فيما يتعلق بدقة التضمين وأسرع حوسبة الوقت لمجموعات البيانات التي تعد كبيرة وأعلى نسبة مئوية في المعدلات المفقودة (20 بالمائة وما فوق). يتم إجراء التحليل الإحصائي أيضًا والذي يدعم التجربة. | en_US |
dc.description.callnumber | t QA 76.9 A43 N126I 2020 | en_US |
dc.description.degreelevel | Master | en_US |
dc.description.identifier | Thesis : An improved K-nearest neighbor with grasshopper optimization algorithm for missing data imputation /by Nadzurah Zainal Abidin | en_US |
dc.description.identity | t11100418043NadzurahZainalAbidin | en_US |
dc.description.kulliyah | Kulliyyah of Information and Communication Technology | en_US |
dc.description.nationality | Malaysian | en_US |
dc.description.notes | Thesis (MCS)--International Islamic University Malaysia, 2020 | en_US |
dc.description.physicaldescription | xv, 110 leaves : illustrations ; 30cm. | en_US |
dc.description.programme | Master in Computer Science | en_US |
dc.identifier.uri | https://studentrepo.iium.edu.my/handle/123456789/9604 | |
dc.language.iso | en | en_US |
dc.publisher | Kuala Lumpur : Kulliyyah of Information and Communication Technology, International Islamic University Malaysia, 2020 | en_US |
dc.subject.lcsh | Computer algorithms | en_US |
dc.subject.lcsh | Heuristic algorithms | en_US |
dc.subject.lcsh | Metaheuristics | en_US |
dc.subject.lcsh | Missing observations (Statistics) | en_US |
dc.title | An improved K-nearest neighbor with grasshopper optimization algorithm for missing data imputation | en_US |
dc.type | Master Thesis | en_US |
dspace.entity.type | Publication |
Files
Original bundle
License bundle
1 - 1 of 1