Conjuntos de prueba para LLMs
Conjuntos de prueba para LLMs
Los conjuntos de prueba anclan la evaluación a tareas reales y casos extremos.
Los conjuntos de prueba empresariales incluyen rúbricas, etiquetas de riesgo y criterios de aceptación.
Ver también
Rúbricas de evaluación Marco de evaluación Métricas de evaluación de LLMPreguntas frecuentes
¿Qué debe incluir un conjunto de pruebas?
Tareas representativas, casos extremos, casos adversarios y ejemplos etiquetados por riesgo.
¿Qué tamaño debe tener?
Empiece pequeño (50-200), luego crezca en función de los fallos y los nuevos casos de uso.
¿Cómo lo mantenemos actualizado?
Añada casos de fallos reales, incidentes y bucles de retroalimentación de usuarios.
¿Cuál es un modo de fallo común?
Un conjunto de pruebas que no refleja el uso en producción o la distribución de riesgos.
¿Cuál es la primera mejora?
Cree un “conjunto de oro” para sus 3 tareas principales y añada rúbricas.