AI EducademyAIEducademy
🌳

Fondations IA

🌱
AI Seeds

Partez de zéro

🌿
AI Sprouts

Construisez les fondations

🌳
AI Branches

Mettez en pratique

🏕️
AI Canopy

Approfondissez

🌲
AI Forest

Maîtrisez l'IA

🔨

Maîtrise IA

✏️
AI Sketch

Partez de zéro

🪨
AI Chisel

Construisez les fondations

⚒️
AI Craft

Mettez en pratique

💎
AI Polish

Approfondissez

🏆
AI Masterpiece

Maîtrisez l'IA

🚀

Prêt pour la Carrière

🚀
Rampe de lancement entretien

Commencez votre parcours

🌟
Maîtrise comportementale

Maîtrisez les compétences relationnelles

💻
Entretiens techniques

Réussissez l'épreuve de code

🤖
Entretiens IA et ML

Maîtrisez l'entretien ML

🏆
Offre et au-delà

Décrochez la meilleure offre

Voir tous les programmes→

Labo

7 expériences chargées
🧠Terrain de jeu neuronal🤖IA ou humain ?💬Labo de prompts🎨Generateur d'images😊Analyseur de sentiment💡Constructeur de chatbot⚖️Simulateur d'ethique
🎯Entretien simuléEntrer dans le labo→
ParcoursBlog
🎯
À propos

Rendre l'éducation en IA accessible à tous, partout

❓
FAQ

Common questions answered

✉️
Contact

Get in touch with us

⭐
Open Source

Construit publiquement sur GitHub

Commencer gratuitement
AI EducademyAIEducademy

Licence MIT. Open Source

Apprendre

  • Programmes
  • Leçons
  • Labo

Communauté

  • GitHub
  • Contribuer
  • Code de conduite
  • À propos
  • FAQ

Soutien

  • Offrez-moi un café ☕
  • Conditions d'utilisation
  • Politique de confidentialité
  • Contact
Programmes d'IA et d'ingénierie›🌿 AI Sprouts›Leçons›Comment les données alimentent l'IA
📊
AI Sprouts • Débutant⏱️ 25 min de lecture

Comment les données alimentent l'IA

Bienvenue au Niveau 2 ! 👋

Dans AI Seeds, vous avez appris que l'IA apprend à partir d'exemples - comme un enfant qui apprend à reconnaître les animaux avec des imagiers. Mais d'où viennent ces exemples ?

La réponse est la donnée - et c'est l'ingrédient le plus important de l'IA. De mauvaises données mènent à une mauvaise IA. D'excellentes données mènent à une excellente IA.

Les données alimentent un modèle d'IA comme le carburant alimente un moteur
Les données sont le carburant de tout système d'IA

Qu'est-ce que la Donnée ? 🤔

La donnée est simplement de l'information enregistrée. Chaque action numérique crée des données :

  • 📸 Prendre une photo → données image
  • 💬 Envoyer un message → données texte
  • 🎵 Écouter une chanson → données d'écoute
  • 🛒 Acheter en ligne → données de transaction
  • 📍 Ouvrir Google Maps → données de localisation

En IA, nous collectons ces informations, les organisons et les utilisons pour enseigner aux machines.


Données Structurées vs Non Structurées

📋 Données Structurées

Des données qui s'organisent en lignes et colonnes - comme un tableur.

| Nom | Âge | Ville | Couleur Préférée | |-----|-----|-------|-----------------| | Aisha | 14 | Londres | Bleu | | Ravi | 16 | Hyderabad | Vert | | Emma | 15 | Amsterdam | Rouge |

🖼️ Données Non Structurées

Des données qui ne rentrent pas dans un tableau - images, vidéos, audio, e-mails, posts sur les réseaux sociaux.

🤯

Plus de 80 % des données mondiales sont non structurées ! Les photos, vidéos et messages dépassent largement les tableurs. L'apprentissage profond moderne a été conçu spécifiquement pour traiter ces données désordonnées.


Données d'Entraînement, de Validation et de Test

Quand vous révisez un examen, vous ne lisez pas seulement le cours - vous faites aussi des exercices, puis passez l'examen. L'IA fait pareil avec trois découpages :

📚 Données d'entraînement (le cours)

La plus grande partie - 70 à 80 % de toutes les données. Le modèle les étudie pour apprendre des patterns.

📝 Données de validation (les exercices)

Environ 10 à 15 %. Utilisées pendant l'entraînement pour vérifier les progrès.

🎓 Données de test (l'examen final)

Les 10 à 15 % restants. Utilisées après l'entraînement. Le modèle n'a jamais vu ces données.

from sklearn.model_selection import train_test_split

# Découpage : 80 % entraînement, 20 % temporaire
train_data, temp_data = train_test_split(all_data, test_size=0.2)

# Découpage du set temporaire : moitié validation, moitié test
val_data, test_data = train_test_split(temp_data, test_size=0.5)

print(f"Entraînement : {len(train_data)}")
print(f"Validation : {len(val_data)}")
print(f"Test : {len(test_data)}")
Leçon 1 sur 160% terminé
←Retour au programme

Discussion

Sign in to join the discussion

Suggérer une modification de cette leçon
🤔
Think about it:

Pourquoi ne peut-on pas tester le modèle sur les données d'entraînement ? Parce que ce serait comme donner à un étudiant les questions exactes de l'examen à l'avance - il aurait un score parfait sans vraiment comprendre la matière.


Biais des Données - Pourquoi C'est Important ⚖️

L'IA n'est aussi juste que les données dont elle apprend.

Si vous entraînez un système de reconnaissance faciale principalement avec des photos de personnes à la peau claire, il fonctionnera mal sur les visages à la peau foncée.

Exemples concrets de biais :

  • 🏥 IA médicale entraînée surtout sur des données masculines - diagnostics incorrects pour les femmes
  • 💼 IA de recrutement entraînée sur des CV historiques - pénalisation des candidates
  • 🚗 Voitures autonomes entraînées en Californie ensoleillée - difficultés sous la pluie et la neige
💡

Le biais n'est pas toujours évident. Si votre jeu de données contient 90 % de texte en anglais, votre IA sera excellente en anglais mais médiocre en français, hindi ou néerlandais. Demandez toujours : « Qui manque dans ces données ? »


Jeux de Données Célèbres 🌍

✍️ MNIST

  • Quoi : 70 000 images de chiffres manuscrits (0–9)
  • Importance : Le « Hello World » du machine learning

🖼️ ImageNet

  • Quoi : Plus de 14 millions d'images étiquetées dans plus de 20 000 catégories
  • Importance : Le concours ImageNet (2010–2017) a accéléré la reconnaissance d'images

🌐 Common Crawl

  • Quoi : Des pétaoctets de données web collectées depuis 2008
  • Importance : Alimente les grands modèles de langage comme GPT

🗣️ LibriSpeech

  • Quoi : 1 000 heures de parole anglaise lue
  • Importance : Utilisé pour entraîner les systèmes de reconnaissance vocale
🤯

Le jeu de données MNIST fait moins de 15 Mo - plus petit qu'une seule photo de smartphone ! Pourtant, il a lancé des milliers de carrières en IA.


Pratique : Explorer un Jeu de Données 🔬

Explorons le célèbre jeu de données Iris - 150 mesures de fleurs avec 4 caractéristiques.

import pandas as pd
from sklearn.datasets import load_iris

# Charger le jeu de données
iris = load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)
df['species'] = [iris.target_names[t] for t in iris.target]

# Exploration basique
print("Forme :", df.shape)
print("\n5 premières lignes :")
print(df.head())

print("\nNombre par espèce :")
print(df['species'].value_counts())

print("\nStatistiques basiques :")
print(df.describe())

Quand vous explorez un jeu de données, demandez-vous :

  1. Combien d'échantillons ? (lignes)
  2. Combien de caractéristiques ? (colonnes)
  3. Les classes sont-elles équilibrées ?
  4. Y a-t-il des valeurs manquantes ?
  5. À quoi ressemblent les chiffres ? (étendue, moyenne, dispersion)

Résumé Rapide 🎯

  1. La donnée est de l'information enregistrée - photos, messages, clics
  2. Données structurées = tableaux ; données non structurées = images, texte, audio
  3. Les données sont découpées en entraînement, validation et test
  4. Le biais des données mène à une IA injuste - demandez qui manque
  5. Des jeux de données comme MNIST, ImageNet et Common Crawl alimentent l'IA actuelle
  6. Explorez toujours vos données avant de construire un modèle

Prochaine Étape 🚀

Vous savez maintenant ce qui alimente l'IA. Dans la prochaine leçon, nous explorerons les algorithmes - les recettes qui transforment les données en décisions intelligentes !