Distillation de modèle

Aussi appelé : Model Distillation · model-distillation · distillation de connaissances · knowledge distillation

Terme IA Avancé 🧠 Concepts fondamentaux

Mis à jour le 27 mai 2026

La distillation de modèle est une technique consistant à entraîner un petit modèle d'IA (l'élève) à reproduire les performances d'un modèle beaucoup plus large et complexe (le maître).

📖 Définition

La distillation de modèle consiste à transférer les connaissances d'un grand modèle performant (enseignant) vers un modèle plus petit et léger (élève). L'élève est entraîné sur les prédictions du modèle enseignant plutôt que sur les données brutes. L'objectif est d'obtenir un modèle compact qui conserve l'essentiel de la performance tout en étant moins gourmand en ressources. Cette technique est essentielle pour le déploiement sur les appareils mobiles.

💬 En termes simples

C'est comme un maître brasseur québécois qui transmet des décennies d'expertise à un apprenti en lui enseignant non pas toute la théorie de la chimie, mais les décisions clés et les jugements essentiels. L'apprenti n'a pas besoin de tout savoir; il a besoin de ce qui compte vraiment, condensé de manière efficace.

🎯 Exemple concret

Une entreprise de domotique québécoise distille un grand modèle de reconnaissance vocale pour ses thermostats intelligents. Un développeur de Montréal compresse un modèle de traduction pour fonctionner hors ligne sur les téléphones de touristes. Un hôpital du Saguenay déploie un modèle distillé de radiologie sur ses équipements existants.

💡 Le saviez-vous ?

La technique a été formalisée par Geoffrey Hinton, lauréat du prix Nobel de physique 2024, dans un article de 2015. Certains modèles distillés conservent jusqu'à 97 % de la performance tout en étant 10 à 60 fois plus petits.

❓ Questions fréquentes

Pourquoi voudrait-on un modèle « élève » moins puissant ?

Pour la vitesse et le coût. Les modèles géants sont trop lents et trop chers pour être utilisés sur un téléphone ou pour répondre à des milliers de requêtes par seconde. La distillation permet de créer une version « poids plume » qui garde 90 % de l'intelligence du maître tout en étant 10 fois plus rapide.

Comment se passe concrètement cet entraînement ?

Au lieu d'apprendre directement des données brutes, le petit modèle observe les réponses du grand modèle. Il apprend non seulement la bonne réponse, mais aussi la « logique » et les probabilités que le maître accorde aux différentes options, ce qui lui permet de raccourcir son propre chemin d'apprentissage.

Qu'est-ce qu'on sacrifie lors de la distillation ?

On perd souvent un peu de nuance et de connaissances générales. Le petit modèle sera excellent pour la tâche précise pour laquelle il a été distillé (ex: résumer des textes), mais il aura beaucoup moins de « culture générale » et de capacités de raisonnement complexe face à des situations imprévues par rapport au modèle maître.

📚 Sources

ArXiv - Distilling the Knowledge in a Neural Network (Geoffrey Hinton et al., 2015)
Wikipedia - Knowledge distillation (Wikipedia, 2024)

🔗 Termes liés

🌿 Sous-termes

Knowledge Distillation

Accueil

Outils

Annuaire

Apprendre