Técnica

Token

Un token es la unidad básica procesada por un LLM: una palabra, una parte de palabra, un carácter o un símbolo. "Optimización" puede descomponerse en "Optim" + "ización" (2 tokens). Los LLM tienen límites de contexto expresados en tokens (128K tokens para GPT-4o). Comprender los tokens ayuda a estructurar los contenidos para que sean procesados eficientemente por las IA.

Cómo funciona la tokenización

Palabras comunes = 1 token: "El", "es", "para", "the", "and".

Palabras largas = varios tokens: "Anticonstitucionalidad": descompuesta en varias partes.

Regla aproximada: 1 token ≈ 4 caracteres o ≈ 0,75 palabras en inglés.

Límites de contexto

Modelo	Contexto
GPT-3.5	4K - 16K
GPT-4o	128K
Claude 3.5 Sonnet	200K
Gemini 1.5	1M

Tokens y visibilidad AEO

El RAG extrae pasajes limitados en tokens. Contenidos estructurados con bloques autónomos facilitan la extracción de pasajes relevantes.

Para ir más lejos

Descubra nuestro artículo en profundidad sobre este tema

Leer artículo

Token

Cómo funciona la tokenización

Límites de contexto

Tokens y visibilidad AEO

Términos relacionados

Para ir más lejos