Métriques d'évaluation des LLM
Métriques d'évaluation des LLM
Les métriques d'évaluation définissent ce qu'est une « bonne sortie » et comment détecter les régressions.
Utilisez un mélange de métriques de qualité, de sécurité, de fiabilité, de coût et d'impact commercial.
Voir aussi
Évaluation et Portes de Qualité Harnais d'Évaluation (LLMOps) Jeux de Test pour LLMFAQ
Quelles métriques sont les plus importantes ?
Qualité, sécurité, fiabilité, coût et résultats commerciaux – choisissez en fonction de la tâche et du risque.
Comment éviter les métriques de vanité ?
Liez les métriques aux critères d'acceptation et aux taux de réussite réels des tâches.
Qu'est-ce qu'une bonne base d'évaluation ?
Un ensemble de tests organisé + des scores de grille d'évaluation + des cas limites connus étiquetés par risque.
Comment détecter les régressions ?
Exécutez des évaluations à chaque changement de prompt/modèle et alertez en cas de baisse.
Quelle est la première amélioration ?
Créez un petit ensemble de tests de référence et définissez 3 à 5 dimensions principales de la grille d'évaluation.