
资源介绍
第一部分:MLOps 基础
从 DevOps 到 MLOps:DevOps 通过持续集成、持续交付、基础设施即代码和微服务等核心原则,为软件开发带来了变革,而 MLOps 作为其延伸,针对机器学习的独特挑战,如模型的非确定性、数据和模型的版本控制等进行了适配。MLOps 在 AI 时代至关重要,能解决模型性能退化、无法复现等问题。其原则和实践包括数据管理(数据版本控制、质量保证等)、实验跟踪、模型部署挑战应对、安全合规、模型性能维护等,还有众多工具和技术支持,以及构建 MLOps 团队的要点。此外,还介绍了 ML CLI 的类型、选择因素、常见管理任务以及不同云提供商的 ML CLI。
训练与实验:构建机器学习模型有数据准备、训练、评分、评估和决策等关键阶段。Azure 机器学习(AML)工作区是管理 ML 项目组件的集中环境,有诸多关键特性和组件,且资源管理便捷。AML CLI 的使用需要先设置虚拟环境,其有特定的基本结构和用法。在 AML 中,作业和实验是组织、执行和跟踪 ML 工作流的基础,数据准备对项目成功至关重要,包括多个步骤和诸多益处,数据注册到 AML 工作区也有相应方法和优势。还介绍了设置实验、选择模型算法、跟踪和比较模型实验、优化模型等内容。
第二部分:MLOps 实施
可重复和可重用的机器学习:定义数据准备、训练和评分的可重复及可重用步骤很重要,不同阶段可由不同专家负责。AML 中的组件和管道能实现这些特性,组件是特定任务的工具,管道则是组件按顺序连接的工作流。理解 ML 环境对保证结果一致性意义重大,跟踪和复现项目中的软件依赖也有相应工具和方法。还通过实例展示了如何使用 AML CLI、Git 和 GitHub Actions 构建 ML 管道。
模型管理(注册和打包):模型元数据对机器学习很重要,有诸多管理原因和在 AML 中的管理方式。模型注册是将训练好的模型及元数据上传到 AML 工作区的过程,AML CLI 可实现该操作,还有 AML 注册表用于跨团队和工作区共享模型。模型格式有标准化的 MLflow 格式和自定义格式,选择时需考虑多方面因素。数据存储在管理 ML 项目 artifacts 中起关键作用,还介绍了模型注册的实例和模型打包的相关内容。
模型部署:批量评分和实时 Web 服务:模型部署有实时推理和批量推理两种主要方式,各有特点、实施方式和部署基础设施。详细介绍了在线推理和批量推理的准备、注册、脚本编写、环境配置、部署及相关概念等内容,还提及将推理步骤集成到 GitHub 流水线实现端到端 MLOps 流程。
为 MLOps 捕获和保护治理数据:MLOps 中的治理很关键,有多个重点领域,包括确保模型完整性、满足合规要求、进行谱系跟踪等。在 AML 全生命周期实施治理涉及多个阶段,保护数据和谱系信息需采取多种安全措施。治理策略对合规和质量保证很重要,还需考虑伦理因素,如偏见的检测和缓解。最后通过实例展示了全面治理的实践。
机器学习模型监控:监控的目的是确保部署的 ML 解决方案持续可靠、高效,包括监控资源利用、确保高可用性等。模型性能监控和基础设施使用监控是两个主要类别,各有重点。DataCollector 是 Azure ML 中模型性能监控的核心工具,有诸多特性。还介绍了设置数据收集、利用收集的数据进行监控以及 AML 中的关键监控信号和基础设施指标监控等内容。
MLOps 中的通知和警报:在 MLOps 中,警报和通知很重要,需理解其概念和 AML 平台日志。创建警报可及时检测问题,还可将警报扩展到多个工作区,通过 Log Analytics 工作区实现集中收集。高级警报有多种实现方式,还可与事件管理集成。警报管理有诸多最佳实践,如设置适当阈值和避免警报疲劳等。
第三部分:MLOps 及 beyond
使用 ML 管道和 GitHub 工作流自动化 ML 生命周期:端到端 AML 管道能自动化 ML 工作流的各个阶段,可通过 YAML 文件定义并调度。GitHub Actions 可用于 CI/CD,弥补 AML 管道在某些场景的不足,还可与 AML 管道集成。还介绍了多云 ML 工作流的 CI/CD 实际场景、挑战和最佳实践。
在实际应用中使用模型:回顾了 MLOps 和 DevOps 的基本概念,展示了三个不同云平台上的案例研究,分别是 Azure 上的需求预测、Google Cloud Platform 上的儿童手写辅助以及 Amazon Web Services 上的实时精准交付,每个案例都包括业务背景、需求、实施架构、挑战和解决方案等内容。
探索下一代 MLOps:大型语言模型(LLMs)与传统机器学习模型有诸多不同,LLM 解决方案开发有特定组件和流程。LLMOps 面临诸多挑战和风险,负责任的 AI(RAI)很重要,Azure RAI 有相应特性。LLM 的部署、警报和监控有特定方式,LLM 发展有诸多益处和趋势。还通过实例展示了使用 Azure AI 实施 LLMOps 的实践。
以上总结涵盖了书籍的主要框架和核心内容,若你对某部分内容想进一步细化或有其他需求,可随时告知。