📖 Définition

Le surapprentissage survient lorsqu'un modèle d'IA mémorise les données d'entraînement de manière trop précise, y compris le bruit et les anomalies, au lieu d'en extraire les tendances générales. Un modèle surajusté affiche d'excellentes performances sur les données d'entraînement, mais échoue sur de nouvelles données. Ce problème est l'un des plus courants en science des données. Pour le contrer, on utilise la validation croisée, la régularisation et l'augmentation des données.

💬 En termes simples

Imaginez un étudiant qui prépare un examen du Barreau du Québec en mémorisant mot pour mot toutes les réponses des années précédentes, sans comprendre les principes juridiques. Face à des questions formulées différemment, il échoue malgré sa préparation. Le surapprentissage en IA reproduit exactement ce piège : le modèle apprend par coeur au lieu de comprendre.

🎯 Exemple concret

Une institution financière de Montréal découvre que son modèle de crédit refuse des dossiers valides car il avait mémorisé des particularités de l'échantillon d'entraînement. Une équipe de recherche en santé à l'Université Laval identifie un surapprentissage dans son modèle de détection de tumeurs. Un détaillant québécois corrige un problème de surapprentissage dans ses prévisions de ventes saisonnières.

💡 Le saviez-vous ?

Le surapprentissage est si répandu que des compétitions Kaggle ont dû modifier leurs règles pour l'empêcher. Un cas célèbre : un réseau de neurones censé détecter des chars d'assaut avait en réalité appris à distinguer les photos prises par temps nuageux de celles prises par temps ensoleillé.

Accueil

Outils

Annuaire

Apprendre