Métricas de Evaluación de LLM
Métricas de Evaluación de LLM
Las métricas de evaluación definen qué significa una “buena salida” y cómo se detectan las regresiones.
Utilice una combinación de métricas de calidad, seguridad, fiabilidad, coste e impacto empresarial.
Ver también
Evaluación y Puertas de Calidad Arnés de Evaluación (LLMOps) Conjuntos de Pruebas para LLMsPreguntas Frecuentes
¿Qué métricas importan más?
Calidad, seguridad, fiabilidad, coste y resultados empresariales: elija según la tarea y el riesgo.
¿Cómo evitamos las métricas de vanidad?
Vincule las métricas a los criterios de aceptación y a las tasas de éxito reales de las tareas.
¿Cuál es una buena línea base de evaluación?
Un conjunto de pruebas curado + puntuaciones de rúbrica + casos extremos conocidos etiquetados por riesgo.
¿Cómo detectamos las regresiones?
Ejecute evaluaciones en cada cambio de prompt/modelo y alerte sobre caídas.
¿Cuál es la primera mejora?
Construya un pequeño conjunto de pruebas de oro y defina 3-5 dimensiones clave de la rúbrica.