评估量规
量规使评估保持一致:您根据定义的标准对输出进行评分。
企业量规还定义了高风险任务需要哪些证据。
另请参阅
LLM 评估指标
人在回路
质量门
常见问题
什么是评估量规?
一个评分框架,使输出质量可衡量且保持一致。
量规应包含哪些维度?
正确性、清晰度、安全性、完整性和任务实用性。
我们如何处理主观评分?
为每个分数定义示例和锚点;校准评审员。
量规如何成为门控?
定义通过阈值,并在发布提示/模型更改时强制执行。
第一个改进是什么?
定义 3-5 个量规维度,并对一个小的基线测试集进行评分。