Technique

Token

Un token est l'unité de base traitée par un LLM : un mot, une partie de mot, un caractère ou un symbole. "Optimisation" peut être découpé en "Optim" + "isation" (2 tokens). Les LLM ont des limites de contexte exprimées en tokens (128K tokens pour GPT-4o). Comprendre les tokens aide à structurer ses contenus pour qu'ils soient traités efficacement par les IA.

Comment fonctionne la tokenisation

Mots courants = 1 token : "Le", "est", "pour", "the", "and".

Mots longs = plusieurs tokens : "Anticonstitutionnellement" : découpé en plusieurs morceaux.

Règle approximative : 1 token ≈ 4 caractères ou ≈ 0.75 mot en anglais.

Limites de contexte

Modèle	Contexte
GPT-3.5	4K - 16K
GPT-4o	128K
Claude 3.5 Sonnet	200K
Gemini 1.5	1M

Tokens et visibilité AEO

Le RAG extrait des passages limités en tokens. Des contenus structurés avec des blocs autonomes facilitent l'extraction de passages pertinents.

Pour aller plus loin

Découvrez notre article détaillé sur ce sujet

Guide AEO

Token

Comment fonctionne la tokenisation

Limites de contexte

Tokens et visibilité AEO

Termes associés

Pour aller plus loin