LLM测试集
测试集将评估锚定到真实任务和边缘情况。
企业测试集包括评分标准、风险标签和验收标准。
另请参阅
评估评分标准
评估工具集
LLM评估指标
常见问题
测试集应包含哪些内容?
代表性任务、边缘情况、对抗性案例以及带有风险标签的示例。
测试集应该多大?
从小规模开始(50-200个),然后根据失败案例和新用例进行扩展。
如何保持测试集更新?
添加来自实际失败、事件和用户反馈循环的案例。
常见的失败模式是什么?
测试集未能反映实际使用情况或风险分布。
首要改进措施是什么?
为你的前3个任务创建一个“黄金集”并添加评分标准。