Testsätze für LLMs
Testsätze für LLMs
Testsätze verankern die Bewertung an realen Aufgaben und Grenzfälle.
Unternehmens-Testsätze umfassen Rubriken, Risikokennzeichnungen und Akzeptanzkriterien.
Siehe auch
Bewertungsrubriken Bewertungssystem LLM-BewertungsmetrikenFAQ
Was sollte ein Testsatz enthalten?
Repräsentative Aufgaben, Grenzfälle, adversarische Fälle und mit Risikokennzeichnungen versehene Beispiele.
Wie groß sollte er sein?
Beginnen Sie klein (50–200) und erweitern Sie ihn dann basierend auf Fehlern und neuen Anwendungsfällen.
Wie halten wir ihn aktuell?
Fügen Sie Fälle aus realen Fehlern, Vorfällen und Benutzer-Feedbackschleifen hinzu.
Was ist ein häufiger Fehlermodus?
Ein Testsatz, der die Produktionsnutzung oder Risikoverteilung nicht widerspiegelt.
Was ist die erste Verbesserung?
Erstellen Sie einen „Gold-Satz“ für Ihre Top-3-Aufgaben und fügen Sie Rubriken hinzu.