LLMOps作战手册

LLMOps 操作手册

在变更中保持 LLM 行为稳定。

  • 提示词和模型的版本控制
  • 评估框架 + 质量门禁
  • 金丝雀/A-B 发布 + 监控
  • 快速回滚流程
定义版本控制

核心理念

像对待生产代码一样对待提示词和模型路由:版本化、测试、监控且可逆。

相关

LLM 能力参考模型 AI 回滚操作手册

相关概念 (LLMOps)

提示词回归 LLM 测试集 评估准则 回退策略 成本激增控制

Articles

全面评估指南:精通LLM性能评估

全面评估指南:精通LLM性能评估

本指南详细介绍了评估工具(Evaluation Harness),这是一个在企业级LLMOps流程中严格评估大型语言模型(LLM)能力的关键框架。您将学习其设置方法、最佳实践以及高级技巧,以确保模型基准测试与优化的可靠性。