Técnica

Datos de entrenamiento

Los datos de entrenamiento designan el corpus masivo de textos utilizado para formar un modelo de lenguaje (LLM). GPT-4 fue entrenado con cientos de miles de millones de palabras provenientes de la web, libros, artículos y conversaciones. Estos datos determinan lo que el modelo "sabe" y, por extensión, qué marcas e información puede mencionar de forma natural en sus respuestas.

Composición de los datos de entrenamiento

Common Crawl: Archivo masivo de la web (miles de millones de páginas).

Libros y publicaciones: Obras digitalizadas, publicaciones académicas.

Wikipedia y wikis: Fuentes estructuradas y verificadas.

Código fuente: GitHub y otros repositorios.

Conversaciones y foros: Reddit, Stack Overflow.

Fecha de corte: un concepto clave

Cada modelo tiene una "fecha de corte" a partir de la cual no ha aprendido nueva información. Los eventos posteriores al corte son desconocidos para el modelo (sin RAG).

Influir en los datos de entrenamiento

Presencia en las fuentes clave (Wikipedia, Wikidata, foros técnicos)
Menciones en sitios con autoridad (prensa, publicaciones sectoriales)
Contenido abundante e indexado que asocie su marca con sus temáticas

Para ir más lejos

Descubra nuestro artículo en profundidad sobre este tema

Leer artículo

Datos de entrenamiento

Composición de los datos de entrenamiento

Fecha de corte: un concepto clave

Influir en los datos de entrenamiento

Términos relacionados

Para ir más lejos