Un token es la unidad básica procesada por un LLM: una palabra, una parte de palabra, un carácter o un símbolo. "Optimización" puede descomponerse en "Optim" + "ización" (2 tokens). Los LLM tienen límites de contexto expresados en tokens (128K tokens para GPT-4o). Comprender los tokens ayuda a estructurar los contenidos para que sean procesados eficientemente por las IA.
Cómo funciona la tokenización
Palabras comunes = 1 token: "El", "es", "para", "the", "and".
Palabras largas = varios tokens: "Anticonstitucionalidad": descompuesta en varias partes.
Regla aproximada: 1 token ≈ 4 caracteres o ≈ 0,75 palabras en inglés.
Límites de contexto
| Modelo | Contexto |
|---|---|
| GPT-3.5 | 4K - 16K |
| GPT-4o | 128K |
| Claude 3.5 Sonnet | 200K |
| Gemini 1.5 | 1M |
Tokens y visibilidad AEO
El RAG extrae pasajes limitados en tokens. Contenidos estructurados con bloques autónomos facilitan la extracción de pasajes relevantes.