Publication: Speaker identification based on hybrid feature extraction techniques
dc.contributor.affiliation | #PLACEHOLDER_PARENT_METADATA_VALUE# | en_US |
dc.contributor.author | Abualadas, Feras Eid Dheif Allah | en_US |
dc.contributor.supervisor | Akram M. Zeki, PhD | en_US |
dc.contributor.supervisor | Muzhir Shaban Al-Ani, PhD | en_US |
dc.contributor.supervisor | Az-Eddine Messikh, PhD | en_US |
dc.date.accessioned | 2024-10-08T07:37:31Z | |
dc.date.available | 2024-10-08T07:37:31Z | |
dc.date.issued | 2020 | |
dc.description.abstract | Speech contains many features that can be used to determine gender and speaker identity; it is a natural form of communication between humans. One of the most exciting areas of signal processing is speech processing. Speech contains many features or characteristics that can discriminate the identity of a person. The human voice is considered one of the important biometric characteristic that can be used for person identification. The proposed speaker identification system (SIS) consists of four phases, namely, pre-processing phase (involves sample resizing to 40000 samples and normalization to ensure that the sound volume will modifying as a standard level), feature extraction phase (involves extracting a set of fundamental voice features that can represent or identify the entire signal of speech), feature selection phase (involves selecting the best features that describe the speaker, where dealing with hundreds number of features leads to increase the workload of recognition) and recognition phase (involves Backpropagation (BP) neural network in this research). In this work the effects of appropriate extracted voice features from various levels of discrete wavelet transformation (DWT) and the concatenation of DWT and curvelet transformation (DWT+Curvelet hereinafter) are studied. The effects of reducing the number of features via Principal component analysis (PCA) on speaker identification is also investigated, and the (BP) neural network was introduced as a classifier. The classifier is trained with a different set of features extracted from three different levels of DWT; these features are extracted one level at a time. The recognition capabilities of the classifier for all levels are compared to determine the best level. This research explores any positive or negative effects of DWT+Curvelet on the classification capability of the proposed system. in addition, this work investigates the effects of reducing the number of features via PCA with DWT and DWT+Curvelet In this research, different three datasets were used for speaker identification system, where these dataset used for train and testing the Feed-Forward Backpropagation (BP). In this approach it is clear that introducing PCA with BP networks improved the accuracy and is an effective method for speaker identification system, where it keeps the effective information and reduces the redundancy of characteristic parameters Four experiments are performed as follows using the three datasets: Experiment 1: only DWT features that extracted from each level of discrete wavelet transformation independently are used to train and test the Neural Network; Experiment 2: the features extracted from each level of (DWT+Curvelet) used to train and test the Neural Network; Experiment 3: With DWT features after utilized principal component analysis used to train and test the neural network; Experiment 4: With (DWT+Curvelet) features after utilized principal component analysis used to train and test the Neural Network. Practical results showed that, the accuracy is improved in level 1 and 2 with database 1 and increased by approximately 5% and 4%, respectively; whereas the accuracy was improved in all levels 1, 2 and 3 with Database 2 and 3 and increased by approximately 11%, 4% and 2% for database 2 and 9%, 11%, 5% for database 3 respectively, when applying (DWT+Curvelet). The system was trained and tested using (Cross-validation). | en_US |
dc.description.abstractarabic | يحتوي الكلام على العديد من الميزات التي يمكن استخدامها لتحديد هوية كلٍّ من الجنس وهوية المتحدث (وجنس المتكلم) وهي شكل طبيعي من أشكال التواصل بين البشر. ويعتبر مجال معالجة الكلام من اكثر مجالات معالجة الاشارة اعجابا. يحتوي الكلام على العديد من الميزات أو الخصائص التي يمكن أن تميز هوية الشخص. يعتبر صوت الإنسان أحد الخصائص الحيوية الهامة التي يمكن استخدامها لتحديد هوية الشخص. يتكون نظام تحديد هوية المتكلم المقترح من أربع مراحل ( مرحلة ما قبل المعالجة وتتضمن تقليل عدد العينات المكونة للصوت حيث تم تقليل عدد العينات الى 40000 وتم تطبيق التطبيع (الاعتماد الوظيفي للبيانات) لضمان تعديل الصوت بمستوى معياري) , مرحلة استخراج الميزات (لاستخراج مجموعة من الميزات الاساسية التي تمثل اشارة الكلام بشكل كامل), مرحلة تحديد الميزات (حيث يتم اختيار الميزات الافضل التي تصف المتحدث حيث ان التعامل مع مئات الميزات يؤدي الى زيادة العبأ في عملية التمييز) ومرحلة التمييز حيث تم استخدام الشبكات العصبية ذات التغذية المرتدة. يهتم هذا البحث بدراسة تأثير الميزات المستخلصة من مستويات مختلفة من المتحول الموجي المنفصل بالاضافة الى الميزات المستخلصة من دمج المحول الموجي المنفصل مع التحويل القوسي ودراسة تأثير تقليل عدد الميزات المستخلصة بإستخدام تحليل المكون الاساسي على تمييز المتحدث حيث تم اعتماد الشبكات العصبية كمصنف.حيث تم تدريب الشبكات العصبية باستخدام مجموعة مختلفة من الميزات المختلفة المستخلصة من ثلاثة مستويات مختلفة من المتحول الموجي المنفصل (مستوى واحد في الوقت الواحد) ومقارنة قدرتها على التمييز وتحديد اي مستوى افضل من المستويات الثلاثة. ويوضح هذا البحث فعالية دمج المحول الموجي المنفصل مع التحويل القويى لمعرفة ما اذا كان هناك اي تأثير على قدرة المصنف حيث بالامكان ان يكون ايجابي او سلبي بالاضافة الى دراسة تأثير تقليل عدد الميزات مع المتحول الموجي المنفصل و مع عملية الدمج بين المتحول الموجي المنفصل و التحويل القوسي. في هذا البحث تم استخدام ثلاثة مجموعات مختلفة من البيانات لنظام تحديد هوية المتحدث حيث استخدمت هذه المجموعات لتدريب الشبكات العصبية ذات التغذية المرتدة. تم اجراء اربعة تجارب مختلفة مع كل واحد من مجموعة البيانات, التجربة 1: استخدام الميزات المستخلصة من المحول الموجي المنفصل بشكل مستقل لتدريب الشبكة العصبية, التجربة 2 : استخراج الميزات من المستويات المختلفة للمحول الموجي المنفصل ودمجها مع التحويل القوسى,التجربة 3:تدريب الشبكة العصبية بالميزات المستخلصة من المحول الموجي المنفصل بعد استخدام تحليل المكون الرئيسي , التجربة 4: تدريب الشبكة العصبية بالميزات المستخلصة من المحول الموجي المنفصل و التحويل القوسي بعد استخدام تحليل المكون الرئيسي. في هذا النهج اتضح ان استخدام تحليل المكون الرئيسي مع الشبكات العصبية قد ادى الى تحسين الدقة ويعتبر هذا النهج هو وسيلة فعالة لنظام تحديد المتحدث حيث يحتفظ بالمعلومات الفعالة ويقلل من تكرار الميزات. وأظهرت النتائج العملية أنه تم تحسين الدقة في المستويين 1 و2 مع قاعدة البيانات 1 وزيادة بنسبة 5 ٪ و 4 ٪ على التوالي؛ في حين تم تحسين الدقة في جميع المستويات 1 ، 2 و 3 باستخدام قاعدة البيانات 2 و 3 وزادت بنسبة حوالي 11 ٪ , 4 ٪ و 2 ٪ لقاعدة البيانات 2 و 9 ٪ , 11 ٪ و 5 ٪ لقاعدة البيانات 3 على التوالي ، عند تطبيق المحول الموجي المنفصل بدقة مع التحويل القوسي. كما تم اســـــــخدام نظرية التحقق من الصحــة (Cross Validation) لاغراض التدريب. | en_US |
dc.description.callnumber | t TK7882 S65 A165S 2020 | en_US |
dc.description.identifier | Thesis : Speaker identification based on hybrid feature extraction techniques /by Feras Eid Dheif Allah Abualadas | en_US |
dc.description.identity | t11100418277FerasEidDheifAllahAbualadas | en_US |
dc.description.kulliyah | Kulliyyah of Information and Communication Technology | en_US |
dc.description.notes | Thesis (Ph.D)--International Islamic University Malaysia, 2020. | en_US |
dc.description.physicaldescription | xviii, 125 leaves : colour illustrations ; 30cm. | en_US |
dc.description.programme | Doctor of Philosophy in Computer Science | en_US |
dc.identifier.uri | https://studentrepo.iium.edu.my/handle/123456789/9331 | |
dc.language.iso | en | en_US |
dc.publisher | Kuala Lumpur : Kulliyyah of Information and Communication Technology, International Islamic University Malaysia, 2020 | en_US |
dc.subject.lcsh | Speech processing systems | en_US |
dc.subject.lcsh | System identification | en_US |
dc.subject.lcsh | Wavelets (Mathematics) | en_US |
dc.title | Speaker identification based on hybrid feature extraction techniques | en_US |
dc.type | Doctoral Thesis | en_US |
dspace.entity.type | Publication |
Files
Original bundle
1 - 2 of 2
Loading...
- Name:
- t11100418277FerasEidDheifAllahAbualadas_24.pdf
- Size:
- 584.29 KB
- Format:
- Adobe Portable Document Format
- Description:
- 24 pages file
Loading...
- Name:
- t11100418277FerasEidDheifAllahAbualadas_SEC.pdf
- Size:
- 1.83 MB
- Format:
- Adobe Portable Document Format
- Description:
- Full text secured file
License bundle
1 - 1 of 1