Un Grand Modèle de Langage (LLM) est un réseau de neurones entraîné sur d'énormes quantités de texte pour comprendre et générer du langage humain. Le mot « grand » fait référence à trois choses : des milliards de paramètres, des trillions de tokens d'entraînement, et des millions de dollars de coût.
À son cœur, un LLM fait une seule chose : prédire le prochain token. Étant donné « Le chat s'est assis sur le », il prédit « tapis » avec la plus haute probabilité. Cet objectif simple, à grande échelle, produit un comportement remarquablement intelligent.
Imaginez avoir lu chaque livre, article et site web jamais écrit. Après toute cette lecture, vous seriez assez bon pour prédire quel mot vient ensuite dans n'importe quelle phrase. C'est essentiellement ce que fait un LLM, mais avec une précision mathématique.
Chaque LLM moderne est construit sur l'architecture Transformer (du papier de 2017 « Attention Is All You Need »). L'innovation clé : l'auto-attention.
Les modèles traditionnels lisent le texte séquentiellement. Les Transformers lisent tout en même temps et déterminent quels mots sont pertinents les uns pour les autres.
Phrase : "La banque au bord de la rivière était escarpée"
Pour le mot "banque", les scores d'attention :
"banque" ←→ "rivière" = 0.45 (élevé — clarifie le sens)
"banque" ←→ "escarpée" = 0.30 (moyen — soutient le sens "rive")
"banque" ←→ "La" = 0.05 (bas — peu informatif)
Les Transformers ont plusieurs têtes d'attention en parallèle, chacune apprenant des relations différentes. Chaque couche suit : Auto-attention → Ajouter + Normaliser → Réseau Feed-Forward → Ajouter + Normaliser. Empilez 50–100+ de ces blocs et vous avez un LLM moderne.
Le modèle lit des trillions de tokens provenant de livres, sites web et code. Il apprend la grammaire, les faits et les patterns de raisonnement — tout en prédisant le prochain token.
Le modèle de base est ajusté sur des paires question-réponse pour apprendre à suivre les instructions.
L'Apprentissage par Renforcement à partir du Feedback Humain enseigne au modèle ce que les humains considèrent comme utile, inoffensif et honnête.
Le RLHF est ce qui fait la différence entre un modèle qui complète du texte et un assistant utile. Il aligne le modèle avec les valeurs humaines — mais ce n'est pas parfait, d'où l'importance de la recherche en sécurité de l'IA.
┌──────────────┬─────────────┬────────────────────────────────────┐
│ Famille │ Créateur │ Caractéristiques Clés │
├──────────────┼─────────────┼────────────────────────────────────┤
│ GPT-4/4o │ OpenAI │ Raisonnement fort, multimodal │
│ Claude │ Anthropic │ Axé sécurité, contexte long │
│ Llama │ Meta │ Poids ouverts, exécutable localement│
│ Gemini │ Google │ Multimodal natif │
│ Mistral │ Mistral AI │ Efficace, européen │
└──────────────┴─────────────┴────────────────────────────────────┘
Les LLM lisent des tokens (environ ¾ d'un mot). La fenêtre de contexte est le maximum de tokens traitables en une fois. GPT-4o supporte 128K tokens (~300 pages), Claude gère 200K (~500 pages).
# Estimation approximative du coût
input_tokens = 1000
output_tokens = 500
prix_par_1k = 0.01
cout = ((input_tokens + output_tokens) / 1000) * prix_par_1k
print(f"Coût par requête : ${cout:.4f}")
print(f"Coût pour 10 000 requêtes : ${cout * 10000:.2f}")
from openai import OpenAI
client = OpenAI()
response = client.chat.completions.create(
model="gpt-4o",
messages=[
{"role": "system", "content": "Vous êtes un tuteur scientifique pour adolescents."},
{"role": "user", "content": "Expliquez la photosynthèse simplement."}
],
temperature=0.7,
max_tokens=300
)
answer = response.choices[0].message.content
print(answer)
Le tableau messages est votre historique de conversation. Le modèle ne « se souvient » pas — vous envoyez le contexte complet à chaque fois. C'est pourquoi les fenêtres de contexte comptent.
Dans la prochaine leçon, nous maîtriserons l'ingénierie des prompts : l'art d'obtenir les meilleurs résultats des LLM. ✨