Mode visiteur Parcours public

IA-02

Machine Learning expliqué simplement

Bases de l’IA · Débutant

Disponible

Rafiq IA Lab

IA-02 — Le Machine Learning expliqué simplement

---

1. Titre du module

IA-02 — Le Machine Learning expliqué simplement

Partie 1 — Comprendre les bases de l'intelligence artificielle

---

2. Objectif pédagogique

À la fin de ce module, l'apprenant doit être capable de :

  • expliquer simplement ce qu'est le Machine Learning (apprentissage automatique) ;
  • distinguer clairement la programmation classique de l'apprentissage automatique ;
  • comprendre et utiliser le vocabulaire de base : donnée d'entraînement, dataset, feature, label, modèle, prédiction ;
  • expliquer comment un modèle apprend, sans entrer dans les mathématiques ;
  • distinguer les trois grands types d'apprentissage : supervisé, non supervisé, par renforcement ;
  • reconnaître des cas d'usage concrets de ML dans le monde IT ;
  • comprendre les limites du Machine Learning et le rôle central de la qualité des données ;
  • expliquer ce qu'est un biais dans les données et pourquoi un modèle peut se tromper.

Prérequis : avoir suivi le module IA-01 — Comprendre l'intelligence artificielle (notions d'IA, ML et DL emboîtés).

---

3. Niveau

Débutant.

Aucune compétence en programmation ou en mathématiques n'est requise. On reste sur des idées simples et des exemples concrets.

---

4. Durée estimée

Activité Durée indicative
Lecture du cours 40 à 50 minutes
Exemples + cas pratique guidé 25 minutes
Exercice à faire seul 15 minutes
Quiz + flashcards de révision 20 minutes
Mini-projet de fin de module 30 à 45 minutes
Total réaliste environ 2h15

---

5. Résumé clair et simple

Le Machine Learning, ou apprentissage automatique, est la partie de l'IA où la machine apprend à partir d'exemples au lieu d'être programmée règle par règle.

Dans la programmation classique, un développeur écrit toutes les règles à la main : « si le mail contient le mot gagnez, alors c'est un spam ». Cette approche devient vite ingérable : il y a trop de cas, trop d'exceptions, et les spammeurs changent sans cesse de méthode.

Avec le Machine Learning, on procède autrement : on montre à la machine des milliers d'exemples de mails déjà étiquetés « spam » ou « pas spam ». La machine en déduit elle-même des régularités, construit un modèle, et peut ensuite prédire la catégorie d'un mail qu'elle n'a jamais vu.

Trois grandes familles existent : l'apprentissage supervisé (on fournit les bonnes réponses pour apprendre), non supervisé (la machine regroupe les données sans réponses fournies) et par renforcement (la machine apprend par essais/erreurs avec des récompenses).

Le point essentiel à retenir : un modèle de Machine Learning ne vaut que ce que valent ses données. Des données incomplètes, déséquilibrées ou biaisées produisent des prédictions fausses, même avec un excellent algorithme. Et comme dans le module IA-01, la conclusion reste la même : un modèle peut se tromper, la vérification humaine reste indispensable.

---

6. Compétences visées

À l'issue de ce module, l'apprenant saura :

  • définir le Machine Learning et le situer dans l'IA ;
  • expliquer la bascule « écrire des règles » → « apprendre des données » ;
  • nommer et expliquer les briques de base : dataset, features, labels, modèle, prédiction ;
  • décrire en quelques phrases comment un modèle s'entraîne et se teste ;
  • identifier le bon type d'apprentissage (supervisé / non supervisé / renforcement) pour un problème donné ;
  • repérer des usages de ML dans un contexte IT (spam, pannes, tickets, anomalies réseau) ;
  • évaluer l'importance de la qualité des données et reconnaître un risque de biais ;
  • expliquer pourquoi un modèle « performant » peut quand même se tromper en conditions réelles.

---

7. Notions clés à comprendre

  • Machine Learning (ML) : apprentissage automatique ; la machine apprend des régularités à partir de données plutôt que de règles écrites à la main.
  • Données d'entraînement : exemples fournis à la machine pour qu'elle apprenne.
  • Dataset (jeu de données) : ensemble organisé de données, souvent sous forme de tableau (lignes = exemples, colonnes = caractéristiques).
  • Feature (caractéristique) : une colonne d'information décrivant un exemple (ex. taille d'un fichier, heure d'une connexion, expéditeur d'un mail).
  • Label (étiquette) : la bonne réponse associée à un exemple (ex. « spam » / « pas spam »). Présent uniquement en apprentissage supervisé.
  • Modèle : le résultat de l'entraînement ; c'est « ce qui a été appris » et qui sert ensuite à faire des prédictions.
  • Prédiction : la réponse que le modèle produit pour un nouvel exemple.
  • Entraînement (training) : phase où le modèle apprend à partir des données.
  • Apprentissage supervisé / non supervisé / par renforcement : les trois grandes façons d'apprendre.
  • Surapprentissage (overfitting) : quand un modèle « apprend par cœur » les exemples d'entraînement et échoue sur des données nouvelles.
  • Biais des données : déséquilibre ou erreur dans les données qui fausse l'apprentissage.

---

8. Cours complet structuré

8.1 — Qu'est-ce que le Machine Learning ?

Le Machine Learning (ML), ou apprentissage automatique, est la branche de l'IA dans laquelle un programme apprend à partir de données au lieu de suivre des règles écrites une par une.

Rappel du module IA-01 : Deep Learning ⊂ Machine Learning ⊂ Intelligence Artificielle. Le ML est donc une grande partie de l'IA, et le Deep Learning (vu en IA-03) en est une sous-partie.

Définition simple : le Machine Learning consiste à apprendre une « règle » automatiquement à partir d'exemples, au lieu de l'écrire à la main.

Analogie. Pour apprendre à un enfant à reconnaître un fruit, on ne lui récite pas une fiche technique : on lui montre beaucoup de pommes, de bananes, d'oranges. Il finit par généraliser. Le ML fait pareil, de manière mécanique et statistique : il généralise à partir d'exemples.

8.2 — Programmation classique vs apprentissage automatique

C'est le cœur du module. Comparons les deux approches sur un même problème : détecter les spams.

Programmation classique (règles écrites à la main) :

SI le mail contient "gagnez" OU "loterie" OU "cliquez ici"
    ALORS spam
SINON
    pas spam

Problèmes : il faut prévoir tous les mots, toutes les langues, toutes les ruses ; les spammeurs s'adaptent ; la liste de règles devient ingérable.

Machine Learning (apprentissage à partir d'exemples) :

1. On fournit 50 000 mails déjà étiquetés "spam" / "pas spam"
2. Le programme analyse les régularités (mots, expéditeurs, liens...)
3. Il construit un modèle
4. Le modèle classe ensuite des mails jamais vus
Programmation classique Machine Learning
Qui écrit la logique ? Le développeur, règle par règle Le modèle, à partir des données
S'adapte aux nouveaux cas ? Non (il faut réécrire des règles) Oui (en réentraînant sur de nouvelles données)
Dépend de quoi ? De la qualité des règles De la qualité et de la quantité des données
Résultat Exact et prévisible Probabiliste : une prédiction, pas une certitude

À retenir : le ML ne supprime pas le développeur, mais il déplace son travail. Au lieu d'écrire des règles, il prépare des données de qualité et choisit un bon modèle.

8.3 — Le vocabulaire de base, sur un exemple concret

Prenons un dataset très simple pour prédire si une connexion réseau est normale ou suspecte.

heure nb_tentatives pays adresse_connue résultat (label)
03:12 48 étranger non suspecte
09:40 1 local oui normale
02:05 60 étranger non suspecte
14:20 2 local oui normale
  • Dataset : tout le tableau.
  • Exemple (ligne) : une connexion observée.
  • Features (colonnes d'entrée) : heure, nb_tentatives, pays, adresse_connue. Ce sont les indices que le modèle utilise.
  • Label (colonne de réponse) : résultat. C'est la bonne réponse, fournie pendant l'entraînement.
  • Modèle : ce que le programme apprend à partir de ces exemples (par ex. « beaucoup de tentatives + nuit + pays étranger + adresse inconnue → souvent suspect »).
  • Prédiction : pour une nouvelle connexion (ex. 02:50, 55 tentatives, étranger, non), le modèle répond « suspecte » avec un certain niveau de confiance.

Important : choisir les bonnes features est décisif. Si une information clé manque (par exemple le type de service visé), le modèle peut se tromper, même avec beaucoup de données.

8.4 — Comment un modèle apprend (sans mathématiques)

Le principe général, simplifié :

  1. On sépare les données en deux paquets : un pour apprendre (entraînement) et un pour tester (que le modèle n'a jamais vu).
  2. Le modèle fait des prédictions sur le paquet d'entraînement.
  3. On compare ses prédictions aux vraies réponses (labels). À chaque erreur, le modèle ajuste ses paramètres internes pour s'améliorer.
  4. On répète ce cycle de nombreuses fois jusqu'à ce que les erreurs diminuent.
  5. On évalue le modèle sur le paquet de test pour vérifier qu'il sait généraliser à des cas nouveaux, et pas seulement « réciter » les exemples appris.

Analogie. C'est comme réviser avec des annales corrigées : on s'entraîne sur des exercices dont on connaît la correction, on ajuste sa méthode à chaque erreur, puis on se teste sur un examen blanc jamais vu. Si on a seulement appris les corrections par cœur, on échoue à l'examen blanc : c'est le surapprentissage (overfitting).

8.5 — Les trois grands types d'apprentissage

1. Apprentissage supervisé (avec les bonnes réponses). On fournit des exemples étiquetés (features + label). Le modèle apprend à prédire le label.

  • Exemples : détecter un spam, prédire une panne, classer un ticket support, reconnaître une image.
  • C'est le type le plus courant en entreprise.

2. Apprentissage non supervisé (sans bonnes réponses). On fournit des données sans label. Le modèle cherche seul des regroupements ou des structures.

  • Exemples : regrouper des clients par comportement, repérer des connexions « hors du lot » (détection d'anomalies), organiser des documents par thèmes.
  • Utile quand on n'a pas (ou pas encore) d'étiquettes.

3. Apprentissage par renforcement (par essais et récompenses). Le modèle agit dans un environnement, reçoit une récompense ou une pénalité, et apprend la stratégie qui maximise les récompenses.

  • Exemples : robotique, jeux, optimisation de certains systèmes.
  • Moins courant pour un usage IT quotidien, mais important à connaître.
Type Données fournies Question posée Exemple IT
Supervisé features + labels « Quelle est la bonne réponse ? » Classer un ticket par priorité
Non supervisé features seules « Comment regrouper ces données ? » Repérer une anomalie réseau
Renforcement récompenses « Quelle action rapporte le plus ? » Optimiser une stratégie automatisée

8.6 — Pourquoi la qualité des données est centrale

Un modèle de ML apprend ce qu'on lui montre. Donc :

  • Données incomplètes → le modèle ignore des cas importants.
  • Données déséquilibrées → si 99 % des exemples sont « normaux », le modèle peut apprendre à toujours répondre « normal » et rater les cas rares (souvent les plus critiques en sécurité).
  • Données erronées ou mal étiquetées → le modèle apprend de fausses régularités.
  • Données non représentatives → un modèle entraîné dans un contexte (un réseau d'entreprise A) peut mal fonctionner ailleurs (réseau B).

Règle d'or : « garbage in, garbage out » (des données médiocres en entrée donnent des résultats médiocres en sortie). La qualité prime souvent sur la quantité.

8.7 — Le biais dans les données

Un biais est un déséquilibre ou une distorsion dans les données qui fausse ce que le modèle apprend.

Exemples :

  • Un modèle de détection d'intrusion entraîné uniquement sur des attaques anciennes peut manquer les attaques récentes.
  • Un système de tri de CV entraîné sur des décisions humaines passées peut reproduire des discriminations présentes dans ces décisions.
  • Un modèle entraîné surtout sur des données d'un seul type de serveur peut mal généraliser à d'autres environnements.

Le biais n'est pas qu'un problème « technique » : il a des conséquences réelles (sécurité, équité, conformité). C'est l'une des raisons pour lesquelles un humain doit superviser les décisions importantes prises par un modèle. Ce sujet (risques, éthique, données sensibles) est approfondi au module IA-16.

8.8 — Pourquoi un modèle peut donner une mauvaise prédiction

Même un modèle « performant sur le papier » peut se tromper, pour plusieurs raisons :

  • Données d'entraînement non représentatives du cas réel rencontré.
  • Surapprentissage : le modèle a « appris par cœur » et généralise mal.
  • Données nouvelles très différentes de celles vues à l'entraînement (le monde change : nouveaux usages, nouvelles attaques).
  • Features manquantes : une information décisive n'a pas été fournie.
  • Biais dans les données.
  • Hasard : le ML produit des probabilités, donc des erreurs sont statistiquement attendues.

C'est pourquoi on ne déploie jamais un modèle « les yeux fermés » : on le teste, on le surveille, et on garde une validation humaine sur les décisions sensibles.

8.9 — Limites du Machine Learning (synthèse)

  • Il a besoin de données de qualité, parfois en grande quantité.
  • Il produit des probabilités, pas des certitudes.
  • Il peut être biaisé ou se périmer quand le contexte évolue.
  • Beaucoup de modèles sont peu explicables : difficile de savoir pourquoi telle prédiction (encore plus avec le Deep Learning, vu en IA-03).
  • Il ne « comprend » pas : il reconnaît des régularités statistiques.

Le ML est un outil d'aide à la décision puissant, pas un oracle.

---

9. Exemples concrets liés au monde IT

  1. Détection de spam (supervisé). Le filtre de messagerie apprend de millions de mails étiquetés et classe les nouveaux. Limite : un mail légitime peut finir en spam (faux positif) — d'où l'importance de vérifier le dossier indésirables.
  2. Prédiction de panne (supervisé). À partir d'historiques (température, charge CPU, erreurs disque SMART), un modèle estime le risque de panne d'un serveur. Utile pour planifier une maintenance avant l'incident.
  3. Classification de tickets support (supervisé). Un modèle classe automatiquement les tickets GLPI par catégorie ou priorité à partir de leur description. Un humain valide les cas ambigus.
  4. Détection d'anomalies réseau (non supervisé). Sans liste d'attaques connues, le modèle apprend le trafic « normal » et signale ce qui en sort (pic de connexions, horaires inhabituels). Très utilisé en cybersécurité défensive (approfondi en IA-16).
  5. Recommandation de contenu (supervisé / hybride). Sur une base de connaissances interne, un système suggère les articles les plus pertinents face à un incident.
  6. Tri d'alertes de supervision (supervisé). Réduire le « bruit » en distinguant les alertes critiques des alertes mineures, à partir d'un historique étiqueté.

Dans tous ces cas : le ML propose une prédiction probable ; l'humain décide sur les cas sensibles. Le schéma de IA-01 reste valable.

---

10. Cas pratique guidé

Objectif : raisonner comme un concepteur de modèle, sans écrire de code. Vous allez préparer (sur papier) un mini-projet de classification de tickets support.

Contexte. Une petite équipe IT reçoit beaucoup de tickets. On veut un modèle qui prédit la priorité d'un ticket : Basse, Moyenne, Haute.

Étape 1 — Choisir le type d'apprentissage. On dispose d'un historique de tickets dont la priorité a déjà été fixée par des techniciens. On a donc des labels → c'est de l'apprentissage supervisé.

Étape 2 — Définir les features (les colonnes d'entrée). Proposez 4 à 6 features pertinentes. Exemple :

  • mots-clés présents dans le titre (ex. « serveur down », « mot de passe ») ;
  • service concerné (messagerie, réseau, impression…) ;
  • nombre d'utilisateurs impactés ;
  • heure de création ;
  • demandeur (VIP ou non) ;
  • présence du mot « urgent ».

Étape 3 — Définir le label. Le label = la priorité (Basse / Moyenne / Haute).

Étape 4 — Penser aux pièges.

  • Le dataset est-il équilibré ? S'il y a 90 % de tickets « Basse », le modèle pourrait tout classer « Basse » (voir 8.6).
  • Les priorités passées sont-elles fiables ? Si les techniciens étiquetaient mal, le modèle apprend des erreurs (biais, voir 8.7).
  • Une information décisive manque-t-elle (ex. impact financier) ?

Étape 5 — Prévoir l'évaluation et le garde-fou humain.

  • On garde un paquet de tickets de test pour vérifier que le modèle généralise.
  • Sur les tickets classés « Haute », on prévoit une validation humaine avant escalade automatique.

Résultat du cas pratique : une fiche décrivant type d'apprentissage, features, label, pièges identifiés et garde-fous. Vous venez de concevoir, sur le plan logique, un vrai projet de Machine Learning supervisé.

---

11. Exercice pratique à faire seul

Consigne. Pour 3 problèmes IT proposés ci-dessous, indiquez le type d'apprentissage le plus adapté (supervisé / non supervisé / renforcement) et justifiez en une phrase. Puis, pour l'un des trois, listez 3 features que vous utiliseriez et le label (s'il y en a un).

Les 3 problèmes :

  1. Repérer automatiquement des comportements inhabituels dans des logs de connexion, sans liste prédéfinie d'attaques.
  2. Prédire si un disque dur va tomber en panne dans les 30 jours, à partir d'un historique où l'on sait quels disques ont lâché.
  3. Regrouper des milliers de tickets non étiquetés pour découvrir les grands thèmes récurrents.

Contexte. Vous renforcez votre réflexe « quel type d'apprentissage pour quel problème ? », compétence très utile avant tout projet IA.

Résultat attendu. Une liste de 3 réponses justifiées + une mini-fiche features/label pour l'un des problèmes.

Critères de réussite :

  • chaque type d'apprentissage est correctement attribué et justifié (la présence ou non de labels est le critère clé) ;
  • les features proposées sont pertinentes et mesurables ;
  • le label est correct (ou « pas de label » correctement identifié pour le cas non supervisé) ;
  • au moins une remarque sur un risque (données déséquilibrées, biais, feature manquante).

Indications de correction : 1 → non supervisé (pas de labels, on cherche l'anormal) ; 2 → supervisé (on connaît l'issue : panne / pas panne) ; 3 → non supervisé (regroupement sans étiquettes).

---

12. Quiz de 10 questions QCM

Une seule bonne réponse par question.

Q1. Qu'est-ce que le Machine Learning ?

  • A. Une façon d'écrire toutes les règles à la main
  • B. Une branche de l'IA où la machine apprend à partir de données
  • C. Un type de matériel informatique
  • D. Un langage de programmation

Q2. Quelle est la différence principale entre programmation classique et Machine Learning ?

  • A. Le ML est toujours plus rapide
  • B. En ML, la logique est apprise à partir des données au lieu d'être écrite règle par règle
  • C. La programmation classique n'utilise pas d'ordinateur
  • D. Il n'y a aucune différence

Q3. Dans un dataset, une « feature » désigne :

  • A. La bonne réponse à prédire
  • B. Une colonne d'information décrivant un exemple (un indice utilisé par le modèle)
  • C. Le nombre total de lignes
  • D. Le nom du fichier

Q4. Le « label » est présent surtout dans quel type d'apprentissage ?

  • A. Non supervisé
  • B. Par renforcement
  • C. Supervisé
  • D. Aucun

Q5. Détecter des anomalies réseau sans liste d'attaques connues relève plutôt de :

  • A. L'apprentissage supervisé
  • B. L'apprentissage non supervisé
  • C. La programmation classique uniquement
  • D. L'apprentissage par renforcement

Q6. Qu'est-ce que le surapprentissage (overfitting) ?

  • A. Un modèle qui apprend trop bien à généraliser
  • B. Un modèle qui « apprend par cœur » les exemples et échoue sur des données nouvelles
  • C. Un modèle entraîné trop vite
  • D. Un modèle qui n'a pas assez de features

Q7. Pourquoi la qualité des données est-elle si importante ?

  • A. Parce que des données médiocres donnent des prédictions médiocres
  • B. Parce qu'elle rend le modèle plus joli
  • C. Parce qu'elle réduit la taille du fichier
  • D. Elle n'a pas vraiment d'importance

Q8. Un dataset où 99 % des exemples sont « normaux » risque de produire un modèle qui :

  • A. Détecte parfaitement les cas rares
  • B. Apprend à presque toujours répondre « normal » et rate les cas rares
  • C. Refuse de fonctionner
  • D. Devient automatiquement non supervisé

Q9. Qu'est-ce qu'un biais dans les données ?

  • A. Une panne matérielle
  • B. Un déséquilibre ou une distorsion qui fausse ce que le modèle apprend
  • C. Une feature en trop
  • D. Le nom d'un algorithme

Q10. Quelle est la bonne attitude avant de se fier à la prédiction d'un modèle sur un cas sensible ?

  • A. L'appliquer directement, le modèle ne se trompe jamais
  • B. Vérifier, tester sur des cas connus et garder une validation humaine
  • C. Supprimer les données
  • D. Ignorer la prédiction systématiquement

---

13. Réponses corrigées du quiz avec explications

Q1 → B. Le ML est la branche de l'IA où la machine apprend à partir de données. A décrit la programmation classique, C et D sont hors sujet.

Q2 → B. La différence clé : la logique est apprise des données plutôt qu'écrite à la main. A est faux (la vitesse n'est pas le critère), C est absurde, D est faux.

Q3 → B. Une feature est une colonne d'entrée décrivant un exemple. A décrit le label, C et D n'ont rien à voir.

Q4 → C. Le label (la bonne réponse) caractérise l'apprentissage supervisé. En non supervisé (A) il n'y a pas de labels, le renforcement (B) fonctionne par récompenses.

Q5 → B. Sans labels d'attaques, on cherche ce qui sort du « normal » : c'est du non supervisé (détection d'anomalies). Le supervisé (A) exigerait des exemples étiquetés.

Q6 → B. Le surapprentissage, c'est apprendre par cœur les exemples et mal généraliser. A décrit l'inverse (le but recherché), C et D ne sont pas la définition.

Q7 → A. « Garbage in, garbage out » : des données médiocres produisent des prédictions médiocres. Les autres réponses sont fausses ou anecdotiques.

Q8 → B. Un dataset très déséquilibré pousse le modèle à privilégier la classe majoritaire et à rater les cas rares (souvent les plus critiques en sécurité).

Q9 → B. Un biais est un déséquilibre ou une distorsion des données qui fausse l'apprentissage. A, C et D sont hors sujet.

Q10 → B. On vérifie, on teste sur des cas connus et on garde une validation humaine. A est dangereux, C et D sont inadaptés.

Barème indicatif : 8/10 ou plus = notions acquises. 5 à 7 = relisez les sections 8.3, 8.5 et 8.6. Moins de 5 = reprenez le cours tranquillement, en vous appuyant sur les exemples.

---

14. Flashcards de révision

Carte 1 Q : Qu'est-ce que le Machine Learning ? R : La branche de l'IA où la machine apprend des régularités à partir de données, au lieu de règles écrites à la main.

Carte 2 Q : Différence clé entre programmation classique et ML ? R : La logique est apprise des données (ML) au lieu d'être écrite règle par règle (classique).

Carte 3 Q : Qu'est-ce qu'un dataset ? R : Un jeu de données organisé, souvent en tableau (lignes = exemples, colonnes = caractéristiques).

Carte 4 Q : Qu'est-ce qu'une feature ? R : Une colonne d'information décrivant un exemple, utilisée comme indice par le modèle.

Carte 5 Q : Qu'est-ce qu'un label ? R : La bonne réponse associée à un exemple ; présent en apprentissage supervisé.

Carte 6 Q : Qu'est-ce qu'un modèle ? R : Le résultat de l'entraînement : « ce qui a été appris » et qui sert à faire des prédictions.

Carte 7 Q : Les trois grands types d'apprentissage ? R : Supervisé (avec labels), non supervisé (sans labels), par renforcement (récompenses).

Carte 8 Q : Qu'est-ce que le surapprentissage (overfitting) ? R : Apprendre par cœur les exemples et mal généraliser sur des données nouvelles.

Carte 9 Q : « Garbage in, garbage out » signifie ? R : Des données de mauvaise qualité produisent des prédictions de mauvaise qualité.

Carte 10 Q : Qu'est-ce qu'un biais dans les données ? R : Un déséquilibre ou une distorsion qui fausse ce que le modèle apprend.

Carte 11 Q : Pourquoi séparer données d'entraînement et données de test ? R : Pour vérifier que le modèle généralise à des cas nouveaux, et pas seulement qu'il récite.

Carte 12 Q : Le ML produit-il des certitudes ? R : Non, des probabilités. Des erreurs sont attendues ; la validation humaine reste nécessaire.

---

15. Erreurs fréquentes

  • Confondre feature et label. La feature est un indice d'entrée ; le label est la réponse à prédire.
  • Croire qu'un bon score garantit un bon modèle. Un modèle peut bien réussir le test mais échouer en conditions réelles (données différentes, contexte qui évolue).
  • Négliger la qualité des données. On se concentre sur l'algorithme alors que les données sont le vrai facteur décisif.
  • Ignorer le déséquilibre des classes. Un dataset où une catégorie domine fausse l'apprentissage.
  • Oublier le biais. Des données biaisées produisent des modèles biaisés, avec des conséquences réelles.
  • Prendre la prédiction pour une vérité. Le ML donne une probabilité, pas une certitude.
  • Vouloir tout résoudre par le ML. Pour beaucoup de problèmes simples, une règle classique suffit et est plus fiable.

---

16. Bonnes pratiques

  • Définir clairement le problème avant de choisir un type d'apprentissage.
  • Soigner les données : qualité, représentativité, équilibre, étiquetage fiable.
  • Choisir des features pertinentes et mesurables.
  • Toujours évaluer sur des données de test que le modèle n'a jamais vues.
  • Surveiller le modèle dans le temps : ses performances peuvent se dégrader quand le contexte change.
  • Documenter les choix (features, source des données, limites connues).
  • Garder une validation humaine sur les décisions sensibles.
  • Préférer la simplicité : un modèle simple et compris vaut souvent mieux qu'un modèle complexe et opaque.

---

17. Point vigilance : limites, risques, sécurité et vérification humaine

Bloc obligatoire à lire attentivement.

Ce qu'il faut vérifier :

  • la qualité et la représentativité des données d'entraînement ;
  • l'équilibre des classes (les cas rares mais critiques sont-ils suffisamment présents ?) ;
  • la fiabilité des labels (qui a étiqueté, et comment ?) ;
  • les performances réelles sur des données nouvelles, pas seulement sur le papier.

Ce qu'il ne faut pas faire :

  • déployer un modèle sans l'avoir testé sur des cas qu'il n'a jamais vus ;
  • traiter une prédiction comme une preuve ou une décision finale sur un sujet sensible ;
  • entraîner un modèle sur des données sensibles (mots de passe, données personnelles, fichiers clients) sans précautions et sans base légale.

Risques de mauvaise utilisation :

  • prendre une décision importante (sécurité, RH, finance) sur la base d'une prédiction biaisée ;
  • automatiser une action critique sans garde-fou (par ex. bloquer automatiquement des accès sur la foi d'un modèle).

Risques de confidentialité :

  • les données d'entraînement peuvent contenir des informations personnelles ou internes sensibles ;
  • l'utilisation de données personnelles est encadrée par le RGPD. Ces aspects (données sensibles, RGPD, sécurité) sont approfondis au module IA-16.

Limites du Machine Learning :

  • il dépend des données et peut se périmer ;
  • il produit des probabilités, pas des certitudes ;
  • il est souvent peu explicable.

Cas où une validation humaine est indispensable :

  • toute décision automatique touchant la sécurité, les personnes, l'argent ou la conformité ;
  • tout déploiement en production d'un modèle ;
  • toute situation où une erreur du modèle aurait des conséquences difficiles à réparer.

Principe à retenir : un modèle propose une prédiction probable ; l'humain valide et reste responsable des décisions sensibles.

---

18. Mini-projet de fin de module

Titre : « Fiche de conception d'un mini-projet de Machine Learning IT »

Objectif. Concevoir, sur le plan logique (sans code), un projet de ML utile à une équipe IT, en mobilisant tout le vocabulaire du module.

Contexte. Vous proposez à votre équipe un cas d'usage simple de Machine Learning. Aucun développement n'est demandé : seulement une fiche de conception claire.

Prérequis. Avoir lu le cours (section 8) et fait le quiz. Aucun outil technique requis.

Étapes :

  1. Choisir un problème IT concret (ex. classer des tickets, prédire une panne, repérer des connexions anormales).
  2. Indiquer le type d'apprentissage (supervisé / non supervisé / renforcement) et le justifier.
  3. Décrire le dataset : quelles données, quelle source, quelle quantité approximative.
  4. Lister 4 à 6 features pertinentes et, le cas échéant, le label.
  5. Identifier 2 risques (données déséquilibrées, biais, feature manquante, périmage…) et une parade pour chacun.
  6. Décrire l'évaluation : comment vérifier que le modèle généralise (paquet de test).
  7. Décrire le garde-fou humain : sur quels cas une validation humaine est imposée.

Résultat attendu. Une fiche d'une page, structurée, qu'un collègue non spécialiste pourrait comprendre.

Critères de réussite :

  • le type d'apprentissage est correct et justifié ;
  • features et label sont cohérents avec le problème ;
  • au moins 2 risques identifiés avec parade ;
  • l'évaluation et le garde-fou humain sont décrits ;
  • le vocabulaire (dataset, feature, label, modèle, prédiction) est utilisé correctement.

Amélioration possible. Ajoutez une courte section « Et si le modèle se trompe ? » décrivant le pire scénario et comment le limiter. C'est exactement le réflexe attendu d'un professionnel.

---

19. Ressources gratuites recommandées

Ne recommander que des ressources gratuites ou accessibles gratuitement. Toute ressource dont la gratuité ou la disponibilité n'est pas certaine est signalée par la mention « À vérifier avant publication. »

  • « Elements of AI » (version française)course.elementsofai.com/fr/ — cours gratuit de l'Université d'Helsinki et MinnaLearn/Reaktor. Ses chapitres couvrent justement les types d'apprentissage automatique et les notions de base du ML, en restant accessibles. (Gratuit, vérifié.)
  • « Objectif IA : initiez-vous à l'intelligence artificielle » (OpenClassrooms)openclassrooms.com/fr/courses/6417031-objectif-ia-initiez-vous-a-l-intelligence-artificielle — MOOC francophone gratuit (Institut Montaigne, Fondation Abeona) qui aborde le fonctionnement d'un projet d'IA, le Machine Learning et le Deep Learning. (Gratuit, vérifié ; un compte gratuit peut être demandé.)
  • « Initiez-vous au Machine Learning » (OpenClassrooms) — cours francophone dédié au ML, plus appliqué (préparation des données, premiers modèles). La consultation des chapitres est accessible gratuitement avec un compte. À vérifier avant publication (vérifier le lien et l'accès libre au moment de publier, car certains parcours OpenClassrooms évoluent).
  • Wikipédia (article « Apprentissage automatique ») — bon point de départ pour des définitions et un panorama des méthodes, à recouper. (Gratuit.)
  • France Université Numérique (FUN-MOOC)fun-mooc.fr — propose régulièrement des MOOC gratuits d'introduction au Machine Learning et à la data science. À vérifier avant publication (sessions ouvertes variables dans le temps).

Remarque : ce module ne promet aucune certification. Ces ressources sont des compléments d'apprentissage ; certaines proposent une attestation gratuite, à vérifier au moment de la publication.

---

20. Résumé final du module

  • Le Machine Learning est la branche de l'IA où la machine apprend à partir de données au lieu de suivre des règles écrites à la main.
  • On passe de « écrire des règles » (programmation classique) à « apprendre des exemples » (ML), ce qui déplace l'effort vers la qualité des données.
  • Vocabulaire clé : dataset (le tableau), features (colonnes d'entrée), label (la réponse), modèle (ce qui est appris), prédiction (la réponse produite).
  • Un modèle apprend par cycles : prédire → comparer aux labels → ajuster → recommencer → tester sur des données nouvelles.
  • Trois grandes familles : supervisé (avec labels), non supervisé (sans labels, regroupement/anomalies), par renforcement (récompenses).
  • La qualité des données est centrale : données déséquilibrées ou biaisées = prédictions fausses (« garbage in, garbage out »).
  • Un modèle produit des probabilités, peut se tromper et se périmer : la validation humaine reste indispensable sur les décisions sensibles.

---

21. Validation demandée avant le module suivant

Validation demandée avant le module suivant

Souhaites-tu que je passe au module suivant ou que je corrige/améliore ce module d'abord ?

(Module suivant prévu : IA-03 — Comprendre le Deep Learning.)