Publication:
An improved K-nearest neighbor with grasshopper optimization algorithm for missing data imputation

dc.contributor.affiliation#PLACEHOLDER_PARENT_METADATA_VALUE#en_US
dc.contributor.authorNadzurah Zainal Abidinen_US
dc.contributor.supervisorAmelia Ritahani Ismail, PhDen_US
dc.date.accessioned2024-10-08T07:42:26Z
dc.date.available2024-10-08T07:42:26Z
dc.date.issued2020
dc.description.abstractConcurrent with the advanced of data cleaning process, missing data have been influentially known as one of the most common issues encountered for many research area. A real collected dataset such as medical, business, transportation and education are prone to be incomplete or missing especially when the respondents does not respond due to stress, fatigue or inadequacy of knowledge, some of the questions given are sensitive, and lack of option answers presented. One of the mechanisms in solving missing data is through imputation, which is the activity of substituting missing values with plausible records that yield to reasonable accuracy against actual values. A huge number of imputation algorithm has been proposed to estimate the missing values. Unfortunately, most imputation method employed provide less reliable estimations for missing data. Therefore, to accurately deal with missing data, an optimization of one of the state-of-the-art imputation algorithm, K-nearest neighbors (KNN), are proposed to impute those missing values. KNN algorithm has been widely adopted as an imputation algorithm for missing data due to its robustness and simplicity and it is also a promising method to outperform other machine learning methods. However, in many cases, KNN suffers from high computational cost, greater storage requirements, sensitive to noise, high time complexity, and difficult to choose the right centroid position and choice of different function for measuring the distance. Therefore, a conventional way of KNN computes an imputation method still imposes undesirable results. Accordingly, this thesis proposes to develop an optimized KNN imputation method with Grasshopper optimization algorithm (GOA) to present a better imputation result. Grasshopper optimization algorithm is a recent population based metaheuristics which have shown an improved results and efficiencies in tackling issues with missing data. The GOA is incorporated in the algorithm structure, inspired from the natural behavior of grasshopper that maximizes the imputation performance of KNN. The performances of the proposed algorithm will be applied to nine different datasets and compared with other optimization algorithms: Particle Swarm Optimization (PSO), Genetic Algorithm (GA), Dragonfly Optimization (DA), Firefly Algorithm (FFA), Ant Lion Optimization (ALO), and Moth Flame Optimization (MFO), in terms of statistical correlation, error accuracy, and running time. The results show KNNGOA has the most promising performance and outperform among other optimization algorithms with regards to imputation accuracy and fastest time computing for datasets that are large and higher percentage in missing rates (20 percent and above). The analysis of statistical test is also conducted which supports the conclusion of the experiment.en_US
dc.description.abstractarabicبالتزامن مع التقدم في عملية تنقيب البيانات ، تعتبر البيانات المفقودة واحده من أكثر المشكلات شيوعًا التي واجهتها العديد من مجالات البحث. من المحتمل أن تكون مجموعة البيانات الحقيقية كالبيانات الطبية ، والأعمال التجارية ، والنقل ، والتعليم غير مكتملة أو مفقودة ، وذلك بسبب الإجهاد أو التعب أو نقص في المعرفة ، وايضا تساهم عدم الاجابة على بعض الاسئلة في جعل البيانات ناقصة. يعتبر التضمين إحدى آليات حل البيانات المفقودة. وتتم من خلال التعويض عن القيم المفقودة بقيم معقولة الدقة. و لقد تم اقتراح عدد كبير جدا من خوارزميات التخمين لتقدير القيم المفقودة. لسوء الحظ ، ان معظم طرق التقدير المستخدمة تُقدم تقديرات أقل موثوقية للبيانات المفقودة. لذلك ، للتعامل بدقة مع البيانات المفقودة ، يُقترح تحسين إحدى الخوارزميات وهي خوارزمية الجار الأقربK Nearest Neighbor algorithm (KNN) لتقدير القيم. تُستخدم خوارزمية KNN على نطاق واسع نظرًا لقوتها وبساطتها ، كما أنها تتفوق على أساليب التعلم الآلي الأخرى. ومع ذلك ، في كثير من الحالات ، تعاني KNN من تكلفة حسابية عالية , متطلبات تخزين أكبر ,حساسة للاخطاء, تحتاج الى الكثير من للوقت ,صعوبة اختيار موقع centroid المناسب ,وصعوبة اختيار طريقة لقياس المسافة. لذلك ، فإن الطريقة التقليدية لاستخدام KNN في عملية التضمين لا تزال تؤدي الى نتائج غير مرغوب فيها. وفقًا لذلك ، يقترح هذا البحث تطوير خوارزمية KNN مع خوارزمية Grasshopper Optimization Algorithm (GOA) من خلال خوارزمية (KNNGOA) لتقديم نتيجة أفضل لعملية التخمين. تعد خوارزمية (GOA) طريقة تحسين جديدة وقد أظهرت نتائج وفعالية محسنة في معالجة المشكلات المتعلقة بالبيانات المفقودة. وهي مستوحاة من السلوك الطبيعي للجندب . سيتم تطبيق أداء الخوارزمية المقترحة على تسع مجموعات بيانات مختلفة ومقارنتها بخوارزميات التحسين الأخرى مثل : Particle Swarm Optimization (PSO)، (GA)Genetic Algorithm، Dragonfly Optimization (DA), Firefly Algorithm (FFA)، (ALO) Ant Lion Optimization, Moth Flame Optimization (MFO) من حيث الارتباط الإحصائي ، دقة الخطأ ، ووقت التشغيل. وقد اظهرت النتائج أن KNNGOA لديه الأداء المتفوق بين خوارزميات التحسين الأخرى فيما يتعلق بدقة التضمين وأسرع حوسبة الوقت لمجموعات البيانات التي تعد كبيرة وأعلى نسبة مئوية في المعدلات المفقودة (20 بالمائة وما فوق). يتم إجراء التحليل الإحصائي أيضًا والذي يدعم التجربة.en_US
dc.description.callnumbert QA 76.9 A43 N126I 2020en_US
dc.description.degreelevelMasteren_US
dc.description.identifierThesis : An improved K-nearest neighbor with grasshopper optimization algorithm for missing data imputation /by Nadzurah Zainal Abidinen_US
dc.description.identityt11100418043NadzurahZainalAbidinen_US
dc.description.kulliyahKulliyyah of Information and Communication Technologyen_US
dc.description.nationalityMalaysianen_US
dc.description.notesThesis (MCS)--International Islamic University Malaysia, 2020en_US
dc.description.physicaldescriptionxv, 110 leaves : illustrations ; 30cm.en_US
dc.description.programmeMaster in Computer Scienceen_US
dc.identifier.urihttps://studentrepo.iium.edu.my/handle/123456789/9604
dc.language.isoenen_US
dc.publisherKuala Lumpur : Kulliyyah of Information and Communication Technology, International Islamic University Malaysia, 2020en_US
dc.subject.lcshComputer algorithmsen_US
dc.subject.lcshHeuristic algorithmsen_US
dc.subject.lcshMetaheuristicsen_US
dc.subject.lcshMissing observations (Statistics)en_US
dc.titleAn improved K-nearest neighbor with grasshopper optimization algorithm for missing data imputationen_US
dc.typeMaster Thesisen_US
dspace.entity.typePublication

Files

Original bundle

Now showing 1 - 2 of 2
Loading...
Thumbnail Image
Name:
t11100418043NadzurahZainalAbidin_24.pdf
Size:
696.52 KB
Format:
Adobe Portable Document Format
Description:
24 pages file
Loading...
Thumbnail Image
Name:
t11100418043NadzurahZainalAbidin_SEC.pdf
Size:
1.95 MB
Format:
Adobe Portable Document Format
Description:
Full text secured file

License bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
license.txt
Size:
1.71 KB
Format:
Plain Text
Description:

Collections