幻觉风险
幻觉是可靠性和信任风险。
通过基础数据、测试集、评估标准和严格验收标准来降低高风险任务的幻觉风险。
另请参阅
基础数据与RAG
评估标准
人在回路
常见问题
幻觉产生的原因是什么?
缺乏基础数据、任务定义模糊、数据分布偏移或约束/评估不足。
如何降低风险?
使用基础数据/RAG、严格的评估标准、拒绝规则,并对高风险任务进行人工审核。
如何衡量幻觉率?
使用标注测试集和基于评估标准的事实正确性评分。
何时需要人在回路?
对于高影响行动,或当输出涉及合规、资金或安全时。
首要改进措施是什么?
为事实性任务添加基础数据,并针对精选测试集进行评估。