Técnica

Datos de entrenamiento

Los datos de entrenamiento designan el corpus masivo de textos utilizado para formar un modelo de lenguaje (LLM). GPT-4 fue entrenado con cientos de miles de millones de palabras provenientes de la web, libros, artículos y conversaciones. Estos datos determinan lo que el modelo "sabe" y, por extensión, qué marcas e información puede mencionar de forma natural en sus respuestas.

Composición de los datos de entrenamiento

Common Crawl: Archivo masivo de la web (miles de millones de páginas).

Libros y publicaciones: Obras digitalizadas, publicaciones académicas.

Wikipedia y wikis: Fuentes estructuradas y verificadas.

Código fuente: GitHub y otros repositorios.

Conversaciones y foros: Reddit, Stack Overflow.

Fecha de corte: un concepto clave

Cada modelo tiene una "fecha de corte" a partir de la cual no ha aprendido nueva información. Los eventos posteriores al corte son desconocidos para el modelo (sin RAG).

Influir en los datos de entrenamiento

  • Presencia en las fuentes clave (Wikipedia, Wikidata, foros técnicos)
  • Menciones en sitios con autoridad (prensa, publicaciones sectoriales)
  • Contenido abundante e indexado que asocie su marca con sus temáticas

Para ir más lejos

Descubra nuestro artículo en profundidad sobre este tema

Leer artículo