Publication:
A deep learning framework for the defection of source code plagiarism using Siamese network and embedding models

dc.contributor.affiliation#PLACEHOLDER_PARENT_METADATA_VALUE#en_US
dc.contributor.authorManahi, Mohammed S.M.en_US
dc.contributor.supervisorSuriani Sulaiman, Ph.Den_US
dc.contributor.supervisorNormi Sham Awang Abu Bakar, Ph.Den_US
dc.date.accessioned2024-10-08T07:42:50Z
dc.date.available2024-10-08T07:42:50Z
dc.date.issued2021
dc.description.abstractSource code plagiarism represents an ongoing problem that threatens academic integrity and intellectual rights. Various research works on detection approaches have been proposed to overcome prolonged manual inspection as it requires laborious efforts and consumes time. These detection approaches can be categorised into four major domains; software engineering, knowledge discovery, shallow parsing and machine learning. Review of the literature revealed that most of the detection approaches had been evaluated based on the commonly referenced and established six-level classification of source code transformations known as the Faidhi and Robinson spectrum, except for the approaches in the machine learning domain. Thus, this research sought to fill the gap in the absence of a machine learning approach that uses embedding models to detect source code plagiarism and evaluated based on the six-level classification. The objectives of this research are threefold; to extract various embedding sequences as similarity features from source codes using embedding models, to train a Siamese network that learns similarity representations from source code embedding sequences, and to develop a deep learning framework that leverages embedding sequences and Siamese network to identify the most accurate detection based on the standard six-level classification of plagiarism activities defined by Faidhi and Robinson. A deep learning framework that utilised a Siamese network and embedding models is proposed to detect deliberate plagiarism in source codes. The proposed framework split source codes into character-based, word-based and token-based sequences to obtain embedding sequences through Word2Vec and fastText models. These embedding sequences were then used as inputs to the Siamese BLSTM network for learning similarity representations. The experimental results showed that the character-based embedding sequences with Word2Vec, Skip Gram and Negative Sampling (W2V-SGNS) approach and the token-based embedding sequences with FastText, Skip Gram and Hierarchical Softmax (FT-SGHS) approach outperformed the other approaches. The detection results were also found to be able to detect up to level five (i.e., semantic equivalents) of the standard classification. However, future experiments will require a larger dataset and fine-tuning of the Siamese network to reduce overfitting and to improve the generalisation of the trained models on plagiarism attacks.en_US
dc.description.abstractarabicتشكل السرقة الأدبية في الشيفرات المصدرية تهديداً صارخاً للنزاهة الأكاديمية والحقوق الفكرية. أنشأ باحثون أوائل تصنيفاً من ستةِ مستوياتٍ لأنشطة السرقة الأدبية المتعمّدة في الشيفرات المصدرية والذي أصبح لاحقاً معياراً موحداً لقياس مستوى السرقة الأدبية في الشيفرات المصدرية. اقترحت العديد من الأبحاث السابقة طرقاً للكشف عن السرقة الأدبية في الشيفرات المصدرية للتغلب على التحقق اليدوي الذي يتطلب جهوداً مضنية و وقتاً طويلاً. تنقسم هذه الأبحاث السابقة إلى طرق تعتمد على أربعة مجالاتٍ رئيسة والتي هي هندسة البرمجيات، أساليب المعرفة الاستكشافية، تقنيات معالجة اللغات الطبيعية الضحلة و تعلم الآلة. كشفت الأدبيات عن تقييم غالبية المناهج بناءً على التصنيف الموحد باستثناء مناهج مجال تعلم الآلة. سعى هذا البحث إلى سد الفجوة البحثية المتمثلة في عدم وجود طريقة تعتمد على تعلم الآلة لاكتشاف السرقة الأدبية في الشيفرات المصدرية والتي تقيمّ نتائجها بناءً على التصنيف الموحد. يهدف هذا البحث الى الحصول على تضمينات للشيفرات المصدرية لاستخدامها كميزات تشابه و من ثم تدريب شبكة عصبونية سيامية لتعلم تمثيلات التشابه للشيفرات المصدرية واخيرا لبناء إطار عمل يدمج التضمينات مع الشبكة العصبونية السيامية للتحقق من النتائج بناء على التصنيف الموحد للسرقة الأدبية في الشيفرات المصدرية. اقترح هذا البحث إطار عمل مبني على تقنيات التعلم العميق باستخدم شبكة عصبونية سياميّة و نماذج تضمين اللغة في فضاء المتجهات لاكتشاف أنشطة السرقة الأدبية المتعمّدة في الشيفرات المصدرية. تحصّل إطار العمل المقترح على تسلسلات تضمين لعدةّ أشكال تجزئة للشيفرات المصدرية المتمثلة في التجزئة المبنية على الأحرف، التجزئة المبنية على الكلمات و التجزئة المبنية على الرموز المميّزة باستخدام نموذجيّ التضمين Word2Vec و .fastText بعد ذلك، استخدمت تسلسلات التضمين كمدخلات للشبكة العصبونية السيامية BLSTM لتعلم تمثيلات التشابه بين الشيفرات المصدرية. أشارت النتائج التجريبية إلى تفوق التجربة المبنية على الأحرف المستندة لمعماريّة W2V- SGNS والتجربة المبنية على الرموز المميّزة المستندة لمعماريّة FT-SGHS على باقي تجارب إطار العمل. لاحقاً، تم تقييم هاتين التجربتين بناءً على المعيار الموحد حيث أظهرت نتائج التقييم اكتشاف أنشطة السرقة الأدبية المتعمدة حتى المستوى الخامس من التصنيف. يوصي البحث بإجراء المزيد من التجارب البحثية المستقبلية لصقل و ضبط الشبكة السيامية بهدف تحسين و تعميم اكتشاف الأنشطة المختلفة في السرقة الأدبية المتعمدة للشيفرات المصدريةen_US
dc.description.callnumbert Q 325.73 M266D 2021en_US
dc.description.identifierThesis : A deep learning framework for the defection of source code plagiarism using Siamese network and embedding models / by Mohammed S.M.Manahien_US
dc.description.identityt11100437189MohammedS.M.Manahien_US
dc.description.kulliyahKulliyyah of Information and Communication Technologyen_US
dc.description.notesThesis (MCST)--International Islamic University Malaysia, 2021.en_US
dc.description.physicaldescriptionxviii, 142 leaves : illustrations ; 30cm.en_US
dc.description.programmeMaster of Computing (Computer Science and Information Technology)en_US
dc.identifier.urihttps://studentrepo.iium.edu.my/handle/123456789/9629
dc.language.isoenen_US
dc.publisherKuala Lumpur : Kulliyyah of Information and Communication Technology, International Islamic University Malaysia, 2021en_US
dc.subject.lcshDeep learning (Machine learning)en_US
dc.subject.lcshNeural networks (Computer science)en_US
dc.titleA deep learning framework for the defection of source code plagiarism using Siamese network and embedding modelsen_US
dc.typeMaster Thesisen_US
dspace.entity.typePublication

Files

Original bundle

Now showing 1 - 2 of 2
Loading...
Thumbnail Image
Name:
t11100437189MohammedS.M.Manahi_24.pdf
Size:
351.92 KB
Format:
Adobe Portable Document Format
Description:
24 pages file
Loading...
Thumbnail Image
Name:
t11100437189MohammedS.M.Manahi_SEC.pdf
Size:
4.09 MB
Format:
Adobe Portable Document Format
Description:
Full text secured file

License bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
license.txt
Size:
1.71 KB
Format:
Plain Text
Description:

Collections