Publication:
Deep learning models for open-world RGB-D face recognition

cris.virtual.department#PLACEHOLDER_PARENT_METADATA_VALUE#
cris.virtual.orcid#PLACEHOLDER_PARENT_METADATA_VALUE#
cris.virtualsource.department63f30e97-8f54-4e08-a249-ab6c0777be3c
cris.virtualsource.orcid63f30e97-8f54-4e08-a249-ab6c0777be3c
dc.contributor.authorFaizabadi, Ahmed Rimaz
dc.contributor.supervisorHasan Firdaus Mohd Zaki, Ph.D
dc.contributor.supervisorZulkifli Zainal Abidin, Ph.D
dc.contributor.supervisorMuhammad Afif Husman, Ph.D
dc.date.accessioned2024-11-26T06:39:54Z
dc.date.available2024-11-26T06:39:54Z
dc.date.issued2024
dc.description.abstractRGB-D based Face Recognition (FR) has grown popular with low-cost depth cameras like Microsoft Kinect, Intel RealSense, and Zed. However, these advances are insufficient for Open-World Face Recognition (OWFR) because the recognition model must identify individuals for whom the FR model was not trained. Developing robust open-world face recognition systems is critical for many practical applications such as cobots, law enforcement, security, and surveillance. Existing FR methods require extensive fine-tuning, classifier retraining, or global metric learning to improve the performance for effective domain adaptation in the open world. These steps are computationally expensive and time consuming. The recognition performance will also significantly degrade when presented with unique individuals. Therefore, it is necessary to develop robust multimodal open-world FR systems using RGB-D cameras without incurring substantial downtime. This thesis proposes three main contributions to the research in RGB-D face recognition. Firstly, the thesis investigates and proposes an RGB-D based FR models suited for the open world, termed CuteFace3D. These robust FR models are built using a multimodal CNN and RGB-D face dataset. The various CNN backbones are investigated for the task. The close-set evaluation on the Intellifusion test dataset is used as the criterion to select a more discriminative FR model as a feature extractor for OWFR. The selected models are then extensively analyzed for an open world on a large dataset of 3D faces. The results imply that deeper networks alone are not discriminative enough for OWFR. The storage is optimized by eliminating the need to save raw RGB-D images, reducing model inference time, and improving data security. A complete FR pipeline is also implemented using a RealSense D435 depth camera. In addition, embeddings are utilized for open-world and unseen domain adaptation with the KNN classifier and k-fold validation, which achieved 99.997% for the open set RGB-D pipeline for domain adaptation. Early fusion with multichannel RGB-D input makes the proposed models robust and accurate in open-world scenarios, with performance equivalent to close-set FR models. Secondly, for OWFR, a fast and efficient adaptive threshold algorithm is developed using an effective Region of Interest (ROI) setting for metric learning. It uses five different ROI schemes to find an adaptive threshold in real-time. After new enrolment the algorithm determines the FR model’s quality and usability. To establish the effectiveness, then benchmarked the proposed method against various threshold-finding strategies for face recognition algorithms for open-world adaptation on different datasets. Experimental results demonstrated that the proposed ROI-based method is up to 12 times faster than the best threshold search algorithm, reporting higher accuracy and fewer errors. Thirdly, this thesis also addresses the performance degradation of the FR model in an open-world setting. A novel performance evaluation metric for FR algorithms on imbalanced datasets is proposed. The proposed metric with an adaptive threshold is more effective than conventional fixed threshold strategies. Thus, this thesis alludes that FR algorithms should be benchmarked for accuracy at the highest F1-score in an open-world. In conclusion, all three contributions increase the effectiveness and efficiency of the proposed FR in terms of computational cost, storage, and security. The proposed method also reduces computational time, making existing FR models operational for OWFR in real-time.
dc.description.abstractarabicأصبح التعرف على الوجه (FR) المستند على RGB-D شائعًا مع كاميرات العمق منخفضة التكلفة مثل Microsoft Kinect و Intel RealSense و ZED. ومع ذلك ، هذه التطورات لم تكن كافية بصورة مرضية للتعرف على الوجه في العالم المفتوح (OWFR) لأن نموذج التعرف على الوجه يجب أن يتعرف على الأفراد الذين لم يتم تدريب نموذج FR الخاص بالتعرف عليهم. لذلك يعد تطوير أنظمة قوية للتعرف على الوجوه في العالم المفتوح أمرًا بالغ الأهمية للعديد من التطبيقات العملية مثل cobots ، وتطبيق القانون ، والأمن ، والمراقبة. تتطلب أساليب FR الحالية ضبطًا دقيقًا مكثفًا ، أو إعادة تدريب المصنف ، أو التعلم المتري العالمي (global metric learning) لتحسين الأداء من أجل التكيف الفعال للتعرف على الوجه في العالم المفتوح الخارجي. هذه الخطوات تعتبر مكلفة حسابيا وتستغرق وقتا طويلا. كما سيتدهور أداء التعرف بشكل كبير عند تقديمه مع أفراد مميزين. لذلك ، من الضروري تطوير أنظمة FR قوية متعددة الوسائط في العالم المفتوح باستخدام كاميرات RGB-D دون تكبد فترات توقف زمنية طويلة نوعا ما. تقترح هذه الأطروحة ثلاث مساهمات رئيسية للبحث في التعرف على الوجوه RGB-D. أولاً ، تبحث الأطروحة وتقترح نماذج FR مبنية على RGB-D مناسبة للعالم المفتوح ، تسمى CuteFace3D. تم تصميم نماذج FR القوية هذه بواسطة مجموعة بيانات للوجه البشري باستخدام CNN و RGB-D متعددة الوسائط. لهذه المهمة، يتم التحقيق بدراسة عميقة في مختلف العمود الفقري لـ CNN. يتم استخدام التقييم المقرب (close-set evaluation) على مجموعة بيانات اختبار Intellifusion كمعيار لاختيار نموذج FR الأكثر تمييزًا كمستخرج مميز لـ OWFR. يتم بعد ذلك تحليل النماذج المختارة على نطاق واسع من أجل العالم الخارجي المفتوح على مجموعة بيانات كبيرة ومتحدة من الوجوه ثلاثية الأبعاد تسمى هنا LS3DFace. تشير النتائج إلى أن الشبكات العميقة ذات عمق كبير وحدها ليست صاحبد الحل الامثل بما يكفي لـ OWFR. في هذه الدراسة تم تحسين التخزين عن طريق التخلص من الحاجة إلى حفظ صور RGB-D الخام ، وتقليل وقت استنتاج النموذج ، وتحسين أمان البيانات. أيضًا تم تنفيذ طريقة علمية لـ FR كاملة باستخدام كاميرا عمق تسمى RealSense D435. بالإضافة إلى ذلك ، تُستخدم التضمينات (embeddings) للتكيف مع المجال المفتوح وغير المرئي مع مصنف KNN والتحقق من صحة k-fold ، والتي حققت 99.997 ٪ للطريقة العلمية المقترحة لـ RGB-D المفتوح لتكييف المجال. لاندماج المبكر مع إدخال RGB-D متعدد القنوات يجعل النماذج المقترحة قوية ودقيقة في سيناريوهات العالم الخارجي المفتوح ، مع أداء مكافئ لنماذج FR ذات المجموعة المغلقة. ثانيًا ، بالنسبة لـ OWFR ، تم تطوير عتبة خوارزمية ذات تكيف سريع وفعال باستخدام إعداد منطقة الاهتمام الفعال (ROI) للتعلم المتري. يستخدم خمسة مخططات مختلفة لـ ROI schemes للعثور على عتبة تكيفية في الوقت الفعلي. بعد عمليات التسجيل الجديدة ، تحدد الخوارزمية جودة نموذج FR وقابليته للاستخدام. إثبات الفعالية ، قمنا بقياس الطريقة المقترحة مقابل استراتيجيات تحديد العتبة المختلفة لخوارزميات التعرف على الوجوه للتكيف مع العالم المفتوح على مجموعات البيانات المختلفة. أظهرت النتائج التجريبية أن الطريقة المقترحة القائمة على ROI أسرع بما يصل إلى 12 مرة من أفضل خوارزمية بحث عتبة ، وتبلغ دقة أعلى وأخطاء أقل. ثالثًا ، تتناول هذه الأطروحة أيضًا تدهور أداء نموذج FR في بيئة العالم المفتوح. تم اقتراح مقياس تقييم أداء جديد لخوارزميات FR على مجموعات البيانات غير المتوازنة. هذا المقياس المقترح مع عتبة تكيفية أكثر فعالية من استراتيجيات العتبة الثابتة التقليدية. وبالتالي ، تشير هذه الأطروحة إلى أنه يجب قياس خوارزميات FR من حيث الدقة عند أعلى درجة F1 في العالم الخارجي المفتوح. في الختام ، تزيد المساهمات الثلاثة من فعالية وكفاءة الإطار المقترح من حيث التكلفة الحسابية والتخزين والأمن. تقلل الطريقة المقترحة أيضًا من الوقت الحسابي عن طريق تشغيل نماذج FR الحالية لـ OWFR في الوقت الفعلي.
dc.description.callnumberet TA 1650 F175D 2024
dc.description.identifierThesis : Deep learning models for open-world RGB-D face recognition / by Ahmed Rimaz Faizabadi
dc.description.identityG1823257Ahmedrimazfaizabadi
dc.description.kulliyahKulliyyah of Engineering
dc.description.notesThesis (Ph.D)--International Islamic University Malaysia, 2024.
dc.description.physicaldescription1 online resource (xxiv, 214 leaves) ; color illustrations.
dc.description.programmeDoctor of Philosophy in Engineering
dc.identifier.urihttps://studentrepo.iium.edu.my/handle/123456789/23133
dc.language.isoen
dc.publisherKuala Lumpur : Kulliyyah of Engineering, International Islamic University Malaysia, 2024
dc.rightsInternational Islamic University Malaysia, 2024
dc.subject.lcshHuman face recognition (Computer science)
dc.subject.lcshArtificial intelligence
dc.titleDeep learning models for open-world RGB-D face recognition
dc.typeDoctoral Theses
dspace.entity.typePublication
oairecerif.author.affiliation#PLACEHOLDER_PARENT_METADATA_VALUE#

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
G1823257Ahmedrimazfaizabadi_SEC.pdf
Size:
34.56 MB
Format:
Adobe Portable Document Format
Description:
Full text

License bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed to upon submission
Description: