Surajustement
Le surajustement est un phénomène de modélisation mathématique, d’inférence statistique et d’apprentissage automatique, dans lequel un modèle devient trop complexe et correspond trop étroitement à un ensemble particulier de données, au point de ne pas pouvoir s’adapter à d’autres données ou de ne pas pouvoir prédire les observations futures de manière fiable. Un modèle surajusté contient plus de paramètres que ne le justifient les données et a, sans le savoir, extrait la variation résiduelle ou le bruit comme s’ils représentaient la structure sous-jacente du modèle. Le surajustement peut conduire à une mauvaise performance prédictive et se produit lorsqu’un modèle commence à mémoriser les données d’apprentissage au lieu d’apprendre à généraliser à partir d’une tendance. La fonction optimale d’un modèle doit généralement être vérifiée sur des ensembles de données plus importants ou entièrement nouveaux afin d’éviter le surajustement. Des techniques telles que la comparaison de modèles, la validation croisée, la régularisation, l’arrêt précoce, l’élagage, les prieurs bayésiens ou l’abandon peuvent être utilisées pour réduire le risque ou la quantité de surajustement, et tester la capacité du modèle à se généraliser via l’évaluation des performances sur un ensemble de données de validation qui n’a pas été utilisé pour la formation.
Signification de l’overfitting
Le surajustement est une erreur de conception qui survient lorsqu’une fonction est trop étroitement adaptée à une petite collection de points de données. En général, l’ajustement excessif du modèle prend la forme de la création d’un modèle excessivement complexe pour clarifier les idiosyncrasies des données étudiées.
En fait, les données souvent étudiées comportent un certain degré d’erreur ou de bruit aléatoire. Par conséquent, si l’on tente d’adapter trop étroitement le modèle à des données légèrement incorrectes, le modèle sera entaché d’erreurs substantielles et sa capacité de prédiction s’en trouvera réduite.
Comment prévenir le surajustement
La validation croisée est l’un des moyens d’éviter le surajustement. Les données utilisées pour l’apprentissage du modèle sont découpées en plis ou en partitions et le modèle est exécuté pour chaque pli. La moyenne de l’estimation de l’erreur globale est ensuite calculée. D’autres méthodes comprennent l’assemblage : les prédictions sont combinées à partir d’au moins deux modèles distincts, l’augmentation des données, qui consiste à diversifier l’ensemble des données disponibles, et la simplification des données, qui consiste à rationaliser le modèle afin d’éviter le surajustement.
L’ajustement excessif dans l’apprentissage automatique
L’adaptation excessive est également un facteur de l’apprentissage automatique. Il peut apparaître lorsqu’on a appris à une machine à rechercher des données spécifiques d’une certaine manière, mais que lorsque le même processus est appliqué à un nouvel ensemble de données, les résultats sont incorrects. Cela est dû à des erreurs dans le modèle qui a été construit, car il présente probablement un faible biais et une variance élevée. Le modèle peut avoir des caractéristiques redondantes ou qui se chevauchent, ce qui le rend inutilement compliqué et donc inefficace.