Тестовые наборы для БЯМ
Тестовые наборы для LLM
Тестовые наборы привязывают оценку к реальным задачам и пограничным случаям.
Корпоративные тестовые наборы включают рубрики, метки рисков и критерии приемки.
См. также
Рубрики оценки Инструмент оценки Метрики оценки LLMЧасто задаваемые вопросы
Что должен включать тестовый набор?
Репрезентативные задачи, пограничные случаи, состязательные случаи и примеры с метками рисков.
Насколько большим он должен быть?
Начните с малого (50–200), затем расширяйте на основе сбоев и новых вариантов использования.
Как поддерживать его актуальность?
Добавляйте случаи из реальных сбоев, инцидентов и циклов обратной связи с пользователями.
Каков распространенный режим отказа?
Тестовый набор, который не отражает производственное использование или распределение рисков.
Каково первое улучшение?
Создайте «золотой набор» для ваших 3 основных задач и добавьте рубрики.