Etude du problème des datasets déséquilibrés dans les algorithmes d'apprentissage automatique
No Thumbnail Available
Date
2023
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Université d’Oum El Bouaghi
Abstract
Ce travail se concentre sur l'étude du problème de Dataset déséquilibrés dans les algorithmes d'apprentissage automatique. Les dataset déséquilibrés sont courants dans de nombreux domaines, où les exemples de la classe minoritaire sont rares par rapport à ceux de la classe majoritaire. Cela entraîne des défis pour les modèles
d'apprentissage automatique, car ils ont tendance à être biaisés en faveur de la classe majoritaire, ce qui conduit à des performances médiocres pour la classe minoritaire.
Dans cette étude, nous proposons d'utiliser trois techniques de pré-traitement des données pour équilibrer les dataset :
- Le Sous-échantillonnage (RUS - Radom UnderSampling)
- Le Sur-échantillonnage (ROS - Radom Over-Sampling)
- La technique SMOTE (SyntheticMinority Over-sampling Technique)
Le sous-échantillonnage consiste à supprimer aléatoirement des exemples de la classe majoritaire afin d'équilibrer les classes, tandis que le sur-échantillonnage duplique aléatoirement des exemples de la classe minoritaire. SMOTE génère quant à lui de nouveaux exemples synthétiques de la classe minoritaire en interpolant les caractéristiques des exemples existants.
L'objectif de cette étude est de comparer l'efficacité de ces techniques de pré-traitement sur des dataset déséquilibrés. Nous évaluerons les performances des modèles d'apprentissage automatique, tels que la régression logistique, Les réseaux de neurones et les forêts aléatoires, sur ces datasetpré-traités. Les mesures de performance, telles que la précision, le rappel, le score AUC et le F1-score, seront utilisées pour évaluer la capacité des modèles à classer correctement les exemples des classes minoritaires.
Les résultats de cette étude permettront de mieux comprendre l'impact des dataset déséquilibrés sur les performances des modèles d'apprentissage automatique, ainsi que l'efficacité des techniques de pré-traitement pour résoudre ce problème.
Mots clés : L'apprentissage automatique, Dataset déséquilibrés,
Les techniques de pré-traitement des données
Summary :
This work focus on the study of the problem of unbalanced datasets in machine learning algorithms. Unbalanced datasets are common in many fields, where examples of the minority class are sparse compared to those of the majority class. This leads to challenges for models
machine learning because they tend to be biased towards the majority class, leading to poor performance for the minority class.
In this study, we propose to use three data pre-processing techniques to balance the dataset:
- Under-sampling (RUS - Radom UnderSampling)
- Over-sampling (ROS - Radom Over-Sampling)
- The SMOTE technique ( Synthetic Minority Over-sampling Technique)
Undersampling consists of randomly removing examples from the majority class in order to balance the classes, while oversampling randomly duplicates examples from the minority class. SMOTE generates new synthetic examples of the minority class by interpolating the characteristics of the existing examples.
The objective of this study is to compare the effectiveness of these pre-processing techniques on unbalanced datasets. We will evaluate the performance of machine learning models, such as logistic regression, neural networks, and random forests, on these pre-processed datasets. Performance measures, such as precision, recall, AUC-score and F1-score, will be used to assess the ability of the models to correctly classify examples of minority classes.
The results of this study will provide insight into the impact of unbalanced datasets on the performance of machine learning models, as well as the effectiveness of pre-processing techniques to address this issue.
Keywords: Machine learning, Unbalanced dataset, Data pre-processing techniques
ملخص
يركزهدا العمل على دراسة مشكلة مجموعات البيانات غير المتوازنة في خوارزميات التعلم الآلي. مجموعات البيانات غير المتوازنة ش ائعة في العديد من المجالات ، حيث تكون أمثلة فئة الأقلية متفرقة مقارنة بتلك الخاصة بفئة الأغلبية. هذا يؤدي إلى تحديات لنماذج التعلم الآلي ، لأنها تميل إلى أن تكون منحازة نحو طبقة الأغلبية ، مما يؤدي إلى أداء ضعيف لفئة الأقلية.
في هذه الدراسة ، نقترح استخدام ثلاث تقنيات للمعالجة المسبقة للبيانات لموازنة مجموعة البيانات:
- تقنية التخفيف (RUS - Radom UnderSampling)
- تقنية التحميل (ROS - Radom Over-Sampling)
- تقنية SMOTE (تقنية الإفراط في أخذ العينات الاصطناعية للأقليات الاصطناعية)
يتكون RUS من إزالة أمثلة عشوائية من فئة الأغلبية من أجل تحقيق التوازن بين الفئات ، في حين أن ROS يؤدي إلى تكرار لأمثلة من فئة الأقلية. يولد SMOTE أمثلة تركيبية جديدة لفئة الأقلية من خلال استيفاء خصائص الأمثلة الموجودة.
الهدف من هذه الدراسة هو مقارنة فعالية تقنيات ما قبل المعالجة هذه على مجموعات البيانات غير المتوازنة. سنقوم بتقييم أداء نماذج التعلم الآلي ، مثل الانحدار اللوجستي ، والشبكات العصبية ، والغابات العشوائية ، على مجموعات البيانات التي تمت معالجتها مسبقًا. سيتم استخدام مقاييس الأداء ، مثل الدقة والاستدعاء ودرجة AUC ودرجة F1 ، لتقييم قدرة النماذج على تصنيف أمثلة فئات الأقليات بشكل صحيح.
ستوفر نتائج هذه الدراسة نظرة ثاقبة حول تأثير مجموعات البيانات غير المتوازنة على أداء نماذج التعلم الآلي ، فضلاً عن فعالية تقنيات المعالجة المسبقة لمعالجة هذه المشكلة.
الكلمات المفتاح: التعلم الآلي ، مجموعات البيانات غير المتوازنة ، تقنيات المعالجة المسبقة للبيانات