Los datos de entrenamiento designan el corpus masivo de textos utilizado para formar un modelo de lenguaje (LLM). GPT-4 fue entrenado con cientos de miles de millones de palabras provenientes de la web, libros, artículos y conversaciones. Estos datos determinan lo que el modelo "sabe" y, por extensión, qué marcas e información puede mencionar de forma natural en sus respuestas.
Composición de los datos de entrenamiento
Common Crawl: Archivo masivo de la web (miles de millones de páginas).
Libros y publicaciones: Obras digitalizadas, publicaciones académicas.
Wikipedia y wikis: Fuentes estructuradas y verificadas.
Código fuente: GitHub y otros repositorios.
Conversaciones y foros: Reddit, Stack Overflow.
Fecha de corte: un concepto clave
Cada modelo tiene una "fecha de corte" a partir de la cual no ha aprendido nueva información. Los eventos posteriores al corte son desconocidos para el modelo (sin RAG).
Influir en los datos de entrenamiento
- Presencia en las fuentes clave (Wikipedia, Wikidata, foros técnicos)
- Menciones en sitios con autoridad (prensa, publicaciones sectoriales)
- Contenido abundante e indexado que asocie su marca con sus temáticas