AI EducademyAIEducademy
Programma'sLabBlogOver ons
Inloggen
AI EducademyAIEducademy

Gratis AI-onderwijs voor iedereen, in elke taal.

Leren

  • Programma's
  • Lessen
  • Lab
  • Dashboard
  • Over ons

Community

  • GitHub
  • Bijdragen
  • Gedragscode

Ondersteuning

  • Koop een Koffie โ˜•

Gratis AI-onderwijs voor iedereen

MIT Licentie โ€” Open Source

Programsโ€บ๐Ÿ•๏ธ AI Canopyโ€บLessonsโ€บGrote Taalmodellen โ€” De Motoren Achter Moderne AI
๐Ÿ“
AI Canopy โ€ข Gemiddeldโฑ๏ธ 45 min leestijd

Grote Taalmodellen โ€” De Motoren Achter Moderne AI

Wat Is een LLM? ๐Ÿค–

Een Groot Taalmodel (LLM) is een neuraal netwerk getraind op enorme hoeveelheden tekst om menselijke taal te begrijpen en te genereren. In de kern doet een LLM รฉรฉn ding: het volgende token voorspellen.

๐Ÿค”
Think about it:

Stel je voor dat je elk boek, artikel en website ooit geschreven hebt gelezen. Na al dat lezen zou je behoorlijk goed zijn in het voorspellen welk woord er volgt. Dat is wat een LLM doet, maar met wiskundige precisie.


De Transformer-Architectuur ๐Ÿ—๏ธ

Elk modern LLM is gebouwd op de Transformer-architectuur. De sleutelinnovatie: zelf-aandacht โ€” in plaats van tekst woord voor woord te lezen, kijkt het naar alle woorden tegelijk.

"De bank bij de rivier was steil"

Voor het woord "bank":
  "bank" โ†โ†’ "rivier"  = 0.45  (hoog โ€” verduidelijkt betekenis)
  "bank" โ†โ†’ "steil"   = 0.30  (medium โ€” ondersteunt "oever" betekenis)

Elke Transformer-laag volgt: Zelf-Aandacht โ†’ Optellen + Normaliseren โ†’ Feed-Forward โ†’ Optellen + Normaliseren. Stapel 50โ€“100+ blokken en je hebt een modern LLM.


De Trainingspijplijn ๐Ÿ”„

Fase 1: Voortraining (taal leren)

Het model leest biljoenen tokens uit boeken, websites en code โ€” leert grammatica, feiten en redeneerpatronen.

Fase 2: Fine-tuning (instructies leren volgen)

Getraind op vraag-antwoord paren om instructies te leren volgen.

Fase 3: RLHF (menselijke voorkeuren leren)

Reinforcement Learning from Human Feedback leert het model wat mensen als behulpzaam en veilig beschouwen.

๐Ÿ’ก

RLHF maakt het verschil tussen een model dat tekst aanvult en een behulpzame assistent. Het is niet perfect โ€” daarom blijft AI-veiligheidsonderzoek cruciaal.


Vergelijking van Grote Modellen ๐Ÿ†

โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”
โ”‚ Modelfamilie โ”‚ Maker       โ”‚ Kenmerken                          โ”‚
โ”œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ผโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ผโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ค
โ”‚ GPT-4/4o     โ”‚ OpenAI      โ”‚ Sterk redeneren, multimodaal       โ”‚
โ”‚ Claude       โ”‚ Anthropic   โ”‚ Veiligheidsgericht, lange context  โ”‚
โ”‚ Llama        โ”‚ Meta        โ”‚ Open gewichten, lokaal uitvoerbaar โ”‚
โ”‚ Gemini       โ”‚ Google      โ”‚ Multimodaal-natief                 โ”‚
โ”‚ Mistral      โ”‚ Mistral AI  โ”‚ Efficiรซnt, Europees               โ”‚
โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ดโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ดโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜

Mogelijkheden en Beperkingen โš–๏ธ

LLM's genereren vloeiende tekst, vatten samen, vertalen en schrijven code. Maar ze worstelen met hallucinaties, wiskunde, recentheid en echte redenering.

๐Ÿค”
Think about it:

LLM's zijn als briljante maar onbetrouwbare stagiairs. Ze kunnen geweldig werk opstellen, maar controleer altijd hun output. Vertrouw, maar verifieer.


Token-Economie en Contextvensters ๐Ÿ“Š

LLM's lezen tokens (ongeveer ยพ van een woord). Het contextvenster is het maximum aantal tokens tegelijk. GPT-4o ondersteunt 128K tokens, Claude 200K.

input_tokens = 1000
output_tokens = 500
prijs_per_1k = 0.01

kosten = ((input_tokens + output_tokens) / 1000) * prijs_per_1k
print(f"Kosten per verzoek: ${kosten:.4f}")

Praktijk: Een LLM API Gebruiken ๐Ÿ› ๏ธ

from openai import OpenAI

client = OpenAI()

response = client.chat.completions.create(
    model="gpt-4o",
    messages=[
        {"role": "system", "content": "Je bent een wetenschapstutor voor tieners."},
        {"role": "user", "content": "Leg fotosynthese eenvoudig uit."}
    ],
    temperature=0.7,
    max_tokens=300
)

print(response.choices[0].message.content)
๐Ÿ’ก

Het messages-array is je gespreksgeschiedenis. Het model "onthoudt" niets โ€” je stuurt elke keer de volledige context. Daarom zijn contextvensters belangrijk.


Samenvatting ๐ŸŽฏ

  1. LLM's voorspellen het volgende token โ€” schaal creรซert intelligent gedrag
  2. Transformers gebruiken zelf-aandacht om context te begrijpen
  3. Trainingspijplijn: voortraining โ†’ fine-tuning โ†’ RLHF
  4. Elk groot model heeft verschillende sterktes
  5. LLM's zijn krachtig maar niet perfect
  6. Tokens zijn de valuta van LLM's

Wat Volgt? ๐Ÿš€

In de volgende les beheersen we prompt engineering: de kunst om de beste resultaten uit LLM's te halen. โœจ

Lesson 2 of 30 of 3 completed
โ†Diepe Neurale Netwerken โ€” Waarom Diepte Alles VerandertPrompt Engineering Meesterschap โ€” De Kunst van Praten met AIโ†’