Publication:
Vaccine hesitancy detection using BERT for multiple social media platforms

cris.virtual.department#PLACEHOLDER_PARENT_METADATA_VALUE#
cris.virtual.orcid#PLACEHOLDER_PARENT_METADATA_VALUE#
cris.virtualsource.department95de5e99-ff56-4371-b17f-0ad5f2968437
cris.virtualsource.orcid95de5e99-ff56-4371-b17f-0ad5f2968437
dc.contributor.authorHossain, Sheikh Md Hanif
dc.contributor.supervisorSuriani Sulaiman
dc.contributor.supervisorNorlia Md Yusof
dc.date.accessioned2025-08-27T02:24:25Z
dc.date.available2025-08-27T02:24:25Z
dc.date.issued2023
dc.description.abstractVaccination has been proven to be an effective measure to prevent the spread of harmful diseases. Despite its efficacy, the moves towards vaccine hesitancy have been receiving global attention. Vaccine hesitancy issues have been openly discussed across major social media platforms including Facebook, Reddit, Twitter, Instagram and YouTube. The spread of vaccine hesitancy-related posts is propagated substantially, causing greater threats to public health. Consequently, various state-of-the-art machine learning techniques have been proposed to analyse vaccine-hesitant related posts in social media. One of the most recent approaches is the transfer learning method using a pre-trained Bidirectional Encoder Representations from Transformers (BERT) model. Despite vaccine hesitancy being a prevalent issue across multiple social media platforms, only a few studies have utilised data from multiple social media platforms to detect vaccine hesitancy. To address this research gap, the use of BERT as one of the new language representation models is adopted to train from a collection of vaccine hesitancy related data from multiple social media platforms. Moreover, this study employs the Support Vector Machine (SVM) and Logistic Regression (LR) models and compare their performances against the BERT method. The objectives of this research are threefold; to establish a consolidated dataset from multiple social media sources for use in vaccine hesitancy detection, to evaluate the effectiveness of using mono-platform versus multi-platform vaccine hesitancy data on the performance of different machine learning models and to apply a transfer learning method using BERT in vaccine hesitancy detection. A collection of 193,023 labelled vaccine hesitant posts were aggregated from three (3) social media platforms which includes Facebook, Reddit, and Twitter. The results demonstrate that the BERT model performs the best and achieved an F1-score of 0.93, while both the SVM and LR achieved F1-scores of 0.90 when detecting vaccine hesitancy from multiple social media platforms. Our proposed research also revealed that models trained with multi-platform data perform at least 15% better than models trained with mono-platform data when tested with multi-platform data.
dc.description.abstractarabicثبت أن التطعيم هو إجراء فعال لمنع انتشار الأمراض الضارة. على الرغم من فعاليتها، إلا أن التحركات نحو تردد اللقاحات قد حظيت باهتمام عالمي. تمت مناقشة قضايا تردد اللقاحات بشكل علني عبر منصات وسائل التواصل الاجتماعي الرئيسية بما في ذلك Facebook و Reddit و Twitter و Instagram و YouTube. تم انتشار المشاركات المتعلقة بالتردد في اللقاح منتشر بشكل كبير، مما يتسبب في تهديدات أكبر للصحة العامة. وبناءً على ذلك، تم اقتراح العديد من تقنيات التعلم الآلي الحديثة لتحليل المنشورات ذات الصلة باللقاحات المترددة في وسائل التواصل الاجتماعي. كانت واحدة من أحدث الأساليب هي طريقة تعلم النقل باستخدام تمثيلات التشفير ثنائية الاتجاه المدربة مسبقًا من نموذج المحولات (BERT). على الرغم من كون تردد اللقاح مشكلة منتشرة عبر العديد من منصات وسائل التواصل الاجتماعي، إلا أن عددًا قليلاً فقط من الدراسات قد استخدمت بيانات من منصات وسائط اجتماعية متعددة لاكتشاف تردد اللقاح. لمعالجة هذه الفجوة البحثية، تم اعتماد استخدام BERT كأحد نماذج تمثيل اللغة الجديدة للتدريب من مجموعة من البيانات المتعلقة بالتردد في اللقاح من منصات وسائط اجتماعية متعددة. علاوة على ذلك، تستخدم هذه الدراسة نماذج آلة المتجهات الداعمة (SVM) والانحدار اللوجستي (LR) ومقارنة أدائها مع طريقة BERT. أهداف هذا البحث ثلاثية. لإنشاء مجموعة بيانات موحدة من مصادر وسائط اجتماعية متعددة لاستخدامها في الكشف عن تردد اللقاح، لتحليل تأثير استخدام بيانات تردد اللقاح الخاصة بمنصة محددة مقابل منصات متعددة على أداء نماذج التعلم الآلي المختلفة ولتقييم فعالية طريقة تعلم النقل استخدام BERT في الكشف عن تردد اللقاح. تم تجميع مجموعة من 193023 منشورًا مترددًا بشأن اللقاح من ثلاث (3) منصات وسائط اجتماعية تشمل Facebook و Reddit و Twitter. توضح النتائج أن نموذج BERT يحقق أفضل أداء وحقق درجة F1 قدرها 0.93، بينما حقق كل من SVM و LR درجات F1 عند 0.90 عند اكتشاف تردد اللقاح من منصات وسائط اجتماعية متعددة. كشف بحثنا المقترح أيضًا أن النماذج المدربة على بيانات متعددة المنصات تؤدي أداءً أفضل بنسبة 15٪ على الأقل من النماذج المدربة ببيانات خاصة بالمنصة عند اختبارها باستخدام بيانات متعددة المنصات.
dc.description.cpsemailcps2u@iium.edu.my
dc.description.degreelevelMaster
dc.description.emailsheikhhanifhossain@gmail.com
dc.description.identifierThesis : Vaccine hesitancy detection using BERT for multiple social media platforms / by Sheikh Md Hanif Hossain
dc.description.identityG2023471Sheikhmdhanifhossain
dc.description.kulliyahKulliyyah of Information and Communication Technology (KICT)
dc.description.nationalityBANGLADESH
dc.description.notesThesis (MCST)--International Islamic University Malaysia, 2023.
dc.description.physicaldescription1 online resource (xxi, 78 leaves) ; color illustrations.
dc.description.programmeMaster of Computing (Computer Science and Information Technology
dc.identifier.urihttps://studentrepo.iium.edu.my/handle/123456789/33198
dc.language.isoen
dc.publisherKuala Lumpur : Kulliyyah of Information and Communication Technology, International Islamic University Malaysia, 2023
dc.rightsOWNED BY STUDENT
dc.titleVaccine hesitancy detection using BERT for multiple social media platforms
dc.typemaster thesis
dspace.entity.typePublication
oairecerif.author.affiliation#PLACEHOLDER_PARENT_METADATA_VALUE#

Files

Original bundle

Now showing 1 - 2 of 2
Loading...
Thumbnail Image
Name:
G2023471Sheikhmdhanifhossain.pdf
Size:
224.41 KB
Format:
Adobe Portable Document Format
Description:
Declaration.
Loading...
Thumbnail Image
Name:
G2023471Sheikhmdhanifhossain_SEC.pdf
Size:
13.33 MB
Format:
Adobe Portable Document Format
Description:
Full text.

Collections