Trainingsdaten sind die riesigen Datensätze, die verwendet werden, um LLMs Sprachverständnis und -generierung beizubringen. Sie umfassen Webseiten, Bücher und Artikel, die das KI-Wissen und Verzerrungen formen.
Was sind Trainingsdaten?
Trainingsdaten sind die Textsammlung, die verwendet wird, um LLMs das Verstehen und Generieren von Sprache beizubringen.
Wichtige Quellen
- Common Crawl (Webarchive)
- Bücher und Literatur
- Wikipedia
- GitHub (Code)
- Wissenschaftliche Publikationen
Auswirkungen
Inhalte in Trainingsdaten beeinflussen das KI-Wissen. Veraltete Informationen können bestehen bleiben, weshalb Qualität und Aktualität wichtig sind.