In AI Seeds heb je geleerd dat AI leert van voorbeelden — net als een kind dat dieren leert herkennen uit prentenboeken. Maar waar komen die voorbeelden vandaan?
Het antwoord is data — en het is het allerbelangrijkste ingrediënt in AI. Slechte data leidt tot slechte AI. Geweldige data leidt tot geweldige AI.
Data is simpelweg vastgelegde informatie. Elke digitale actie creëert data:
In AI verzamelen we deze informatie, organiseren we het en gebruiken we het om machines te leren.
Data die netjes in rijen en kolommen past — zoals een spreadsheet.
| Naam | Leeftijd | Stad | Lievelingskleur | |------|----------|------|-----------------| | Aisha | 14 | Londen | Blauw | | Ravi | 16 | Hyderabad | Groen | | Emma | 15 | Amsterdam | Rood |
Data die niet in een tabel past — afbeeldingen, video's, audio, e-mails, social media posts.
Meer dan 80% van alle data wereldwijd is ongestructureerd! Foto's, video's en berichten overtreffen spreadsheets ruimschoots. Modern deep learning is speciaal ontworpen om deze rommelige data te verwerken.
Als je voor een examen studeert, lees je niet alleen het boek — je oefent ook met proefvragen en doet dan het echte examen. AI doet hetzelfde met drie datasplits:
Het grootste deel — 70 tot 80% van alle data. Het AI-model bestudeert dit om patronen te leren.
Ongeveer 10 tot 15%. Gebruikt tijdens het trainen om voortgang te controleren.
De overige 10 tot 15%. Gebruikt na het trainen. Het model heeft deze data nooit eerder gezien.
from sklearn.model_selection import train_test_split
# Split: 80% training, 20% tijdelijk
train_data, temp_data = train_test_split(all_data, test_size=0.2)
# Split tijdelijke set: helft validatie, helft test
val_data, test_data = train_test_split(temp_data, test_size=0.5)
print(f"Training: {len(train_data)}")
print(f"Validatie: {len(val_data)}")
print(f"Test: {len(test_data)}")
Waarom kunnen we het model niet gewoon testen op dezelfde data waarop het getraind is? Omdat het dan zou zijn alsof je een student de exacte examenvragen van tevoren geeft — perfecte score maar misschien geen echt begrip.
AI is slechts zo eerlijk als de data waarvan het leert.
Als je een gezichtsherkenningssysteem voornamelijk traint op foto's van mensen met een lichte huid, zal het slecht presteren op donkerdere gezichten.
Voorbeelden van databias:
Bias is niet altijd zichtbaar. Als je dataset 90% Engelse tekst bevat, zal je AI uitstekend zijn in Engels maar slecht in Hindi, Telugu of Nederlands. Vraag altijd: "Wie ontbreekt in deze data?"
De hele MNIST-dataset is minder dan 15 MB — kleiner dan één smartphonefoto! Toch heeft het duizenden AI-carrières gelanceerd.
Laten we de beroemde Iris-dataset verkennen — 150 metingen van bloemen met 4 kenmerken.
import pandas as pd
from sklearn.datasets import load_iris
# Dataset laden
iris = load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)
df['species'] = [iris.target_names[t] for t in iris.target]
# Basisverkenning
print("Vorm:", df.shape)
print("\nEerste 5 rijen:")
print(df.head())
print("\nAantal per soort:")
print(df['species'].value_counts())
print("\nBasisstatistieken:")
print(df.describe())
Bij het verkennen van een dataset, vraag altijd:
Je weet nu wat AI aandrijft. In de volgende les verkennen we algoritmen — de stapsgewijze recepten die data omzetten in intelligente beslissingen!