Een Groot Taalmodel (LLM) is een neuraal netwerk getraind op enorme hoeveelheden tekst om menselijke taal te begrijpen en te genereren. In de kern doet een LLM รฉรฉn ding: het volgende token voorspellen.
Stel je voor dat je elk boek, artikel en website ooit geschreven hebt gelezen. Na al dat lezen zou je behoorlijk goed zijn in het voorspellen welk woord er volgt. Dat is wat een LLM doet, maar met wiskundige precisie.
Elk modern LLM is gebouwd op de Transformer-architectuur. De sleutelinnovatie: zelf-aandacht โ in plaats van tekst woord voor woord te lezen, kijkt het naar alle woorden tegelijk.
"De bank bij de rivier was steil"
Voor het woord "bank":
"bank" โโ "rivier" = 0.45 (hoog โ verduidelijkt betekenis)
"bank" โโ "steil" = 0.30 (medium โ ondersteunt "oever" betekenis)
Elke Transformer-laag volgt: Zelf-Aandacht โ Optellen + Normaliseren โ Feed-Forward โ Optellen + Normaliseren. Stapel 50โ100+ blokken en je hebt een modern LLM.
Het model leest biljoenen tokens uit boeken, websites en code โ leert grammatica, feiten en redeneerpatronen.
Getraind op vraag-antwoord paren om instructies te leren volgen.
Reinforcement Learning from Human Feedback leert het model wat mensen als behulpzaam en veilig beschouwen.
RLHF maakt het verschil tussen een model dat tekst aanvult en een behulpzame assistent. Het is niet perfect โ daarom blijft AI-veiligheidsonderzoek cruciaal.
โโโโโโโโโโโโโโโโฌโโโโโโโโโโโโโโฌโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ Modelfamilie โ Maker โ Kenmerken โ
โโโโโโโโโโโโโโโโผโโโโโโโโโโโโโโผโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโค
โ GPT-4/4o โ OpenAI โ Sterk redeneren, multimodaal โ
โ Claude โ Anthropic โ Veiligheidsgericht, lange context โ
โ Llama โ Meta โ Open gewichten, lokaal uitvoerbaar โ
โ Gemini โ Google โ Multimodaal-natief โ
โ Mistral โ Mistral AI โ Efficiรซnt, Europees โ
โโโโโโโโโโโโโโโโดโโโโโโโโโโโโโโดโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
LLM's genereren vloeiende tekst, vatten samen, vertalen en schrijven code. Maar ze worstelen met hallucinaties, wiskunde, recentheid en echte redenering.
LLM's zijn als briljante maar onbetrouwbare stagiairs. Ze kunnen geweldig werk opstellen, maar controleer altijd hun output. Vertrouw, maar verifieer.
LLM's lezen tokens (ongeveer ยพ van een woord). Het contextvenster is het maximum aantal tokens tegelijk. GPT-4o ondersteunt 128K tokens, Claude 200K.
input_tokens = 1000
output_tokens = 500
prijs_per_1k = 0.01
kosten = ((input_tokens + output_tokens) / 1000) * prijs_per_1k
print(f"Kosten per verzoek: ${kosten:.4f}")
from openai import OpenAI
client = OpenAI()
response = client.chat.completions.create(
model="gpt-4o",
messages=[
{"role": "system", "content": "Je bent een wetenschapstutor voor tieners."},
{"role": "user", "content": "Leg fotosynthese eenvoudig uit."}
],
temperature=0.7,
max_tokens=300
)
print(response.choices[0].message.content)
Het messages-array is je gespreksgeschiedenis. Het model "onthoudt" niets โ je stuurt elke keer de volledige context. Daarom zijn contextvensters belangrijk.
In de volgende les beheersen we prompt engineering: de kunst om de beste resultaten uit LLM's te halen. โจ