Dans AI Seeds, vous avez appris que l'IA apprend à partir d'exemples — comme un enfant qui apprend à reconnaître les animaux avec des imagiers. Mais d'où viennent ces exemples ?
La réponse est la donnée — et c'est l'ingrédient le plus important de l'IA. De mauvaises données mènent à une mauvaise IA. D'excellentes données mènent à une excellente IA.
La donnée est simplement de l'information enregistrée. Chaque action numérique crée des données :
En IA, nous collectons ces informations, les organisons et les utilisons pour enseigner aux machines.
Des données qui s'organisent en lignes et colonnes — comme un tableur.
| Nom | Âge | Ville | Couleur Préférée | |-----|-----|-------|-----------------| | Aisha | 14 | Londres | Bleu | | Ravi | 16 | Hyderabad | Vert | | Emma | 15 | Amsterdam | Rouge |
Des données qui ne rentrent pas dans un tableau — images, vidéos, audio, e-mails, posts sur les réseaux sociaux.
Plus de 80 % des données mondiales sont non structurées ! Les photos, vidéos et messages dépassent largement les tableurs. L'apprentissage profond moderne a été conçu spécifiquement pour traiter ces données désordonnées.
Quand vous révisez un examen, vous ne lisez pas seulement le cours — vous faites aussi des exercices, puis passez l'examen. L'IA fait pareil avec trois découpages :
La plus grande partie — 70 à 80 % de toutes les données. Le modèle les étudie pour apprendre des patterns.
Environ 10 à 15 %. Utilisées pendant l'entraînement pour vérifier les progrès.
Les 10 à 15 % restants. Utilisées après l'entraînement. Le modèle n'a jamais vu ces données.
from sklearn.model_selection import train_test_split
# Découpage : 80 % entraînement, 20 % temporaire
train_data, temp_data = train_test_split(all_data, test_size=0.2)
# Découpage du set temporaire : moitié validation, moitié test
val_data, test_data = train_test_split(temp_data, test_size=0.5)
print(f"Entraînement : {len(train_data)}")
print(f"Validation : {len(val_data)}")
print(f"Test : {len(test_data)}")
Pourquoi ne peut-on pas tester le modèle sur les données d'entraînement ? Parce que ce serait comme donner à un étudiant les questions exactes de l'examen à l'avance — il aurait un score parfait sans vraiment comprendre la matière.
L'IA n'est aussi juste que les données dont elle apprend.
Si vous entraînez un système de reconnaissance faciale principalement avec des photos de personnes à la peau claire, il fonctionnera mal sur les visages à la peau foncée.
Exemples concrets de biais :
Le biais n'est pas toujours évident. Si votre jeu de données contient 90 % de texte en anglais, votre IA sera excellente en anglais mais médiocre en français, hindi ou néerlandais. Demandez toujours : « Qui manque dans ces données ? »
Le jeu de données MNIST fait moins de 15 Mo — plus petit qu'une seule photo de smartphone ! Pourtant, il a lancé des milliers de carrières en IA.
Explorons le célèbre jeu de données Iris — 150 mesures de fleurs avec 4 caractéristiques.
import pandas as pd
from sklearn.datasets import load_iris
# Charger le jeu de données
iris = load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)
df['species'] = [iris.target_names[t] for t in iris.target]
# Exploration basique
print("Forme :", df.shape)
print("\n5 premières lignes :")
print(df.head())
print("\nNombre par espèce :")
print(df['species'].value_counts())
print("\nStatistiques basiques :")
print(df.describe())
Quand vous explorez un jeu de données, demandez-vous :
Vous savez maintenant ce qui alimente l'IA. Dans la prochaine leçon, nous explorerons les algorithmes — les recettes qui transforment les données en décisions intelligentes !