Метрики оценки LLM
Метрики оценки LLM
Метрики оценки определяют, что означает «хороший результат», и как вы обнаруживаете регрессии.
Используйте комбинацию метрик качества, безопасности, надежности, стоимости и влияния на бизнес.
См. также
Оценка и шлюзы качества Инструмент оценки (LLMOps) Тестовые наборы для LLMЧасто задаваемые вопросы
Какие метрики наиболее важны?
Качество, безопасность, надежность, стоимость и бизнес-результаты — выбирайте исходя из задачи и риска.
Как избежать метрик тщеславия?
Привязывайте метрики к критериям приемки и реальным показателям успешности выполнения задач.
Что такое хорошая базовая оценка?
Курируемый тестовый набор + баллы по рубрике + известные граничные случаи, помеченные по риску.
Как обнаружить регрессии?
Проводите оценки при каждом изменении промпта/модели и оповещайте о падениях.
Какое первое улучшение?
Создайте небольшой золотой тестовый набор и определите 3–5 основных измерений рубрики.