




资源介绍
视频数量:29个
总时长:6小时28分
课程介绍:
MLflow机器学习运维与LLMOps实战
---
你正在训练一个机器学习模型,跑了三天三夜终于跑出结果,结果第二天打开电脑发现实验记录找不到了。参数是什么来着?那个召回率0.87的模型是用哪组超参数跑出来的?更糟糕的是,你接手了同事的项目,发现他的代码里没有任何记录,只能从头猜。
这不是段子,是真实发生在无数数据科学家和机器学习工程师身上的事。
课程的核心问题很简单:当你不再只是做一次性的实验,而是要把模型真正用到生产环境的时候,如何系统性地管理实验、追踪参数、版本控制模型、管理提示词?MLflow就是来解决这些问题的。
这门课不讲空洞的理论,直接带你从零开始搭建完整的MLflow工作流。你会学到如何在本地环境中部署MLflow服务器,理解实验和运行的关系,知道什么时候该用手动日志记录,什么时候用自动日志更省事。特别重要的是嵌套运行这个概念,它能帮你组织复杂的实验结构,比如你同时测试三种特征工程方案,每种方案下面又有五组不同的模型参数,这时候嵌套运行就能让所有记录一目了然。
模型注册表是MLflow另一个核心功能。课程会详细演示如何把训练好的模型注册到统一的管理平台上,加上版本号、打上标签、标注状态(是测试中还是已经上线)。当你需要回滚到一个旧版本,或者比较不同版本的性能差异时,注册表就是你的得力助手。
训练好的模型总要上线吧。课程会教你如何在没有任何Flask或FastAPI基础的情况下,直接用MLflow提供的model serve命令把模型部署成HTTP服务。指定模型URI,设置端口,一行命令就能跑起来。部署不再是运维团队的专属工作,算法工程师自己就能搞定。
LLMOps是这两年最火的方向。课程专门用一整章来讲MLflow如何管理大语言模型相关的提示词。传统的MLOps管理的是模型参数,而LLMOps管理的核心变成了提示词本身。你会学到提示词注册表的使用方法,如何加载提示词,怎么评估提示词的效果。这里不只讲概念,还会有自定义评分器的实现细节,以及如何对GenAI应用进行可观测性和监控。
课程还安排了一个完整的提示词评估项目,从头到尾走一遍流程,让你真正掌握这些工具怎么用到实际工作中。
AI网关是另一个值得关注的模块。你会学到如何在MLflow中配置AI网关,统一管理对各种大模型的访问,这对于企业级应用来说非常重要。
课程后半段把重点放到了Databricks平台上。这不是简单的功能介绍,而是真正结合生产环境的实战。你会学到在Databricks上运行MLflow的具体方式,如何部署HuggingFace模型到Databricks上。更实用的是Databricks AI函数这部分,包括数据摄入、情感分类、文本分类、信息提取、语法修复、通用AI查询、结构化模式提取等核心功能。
最后的端到端项目会带你创建一个完整的Databricks批处理作业,实现情感预测的整个流程。这个项目把前面学到的所有知识点串起来,从数据读取到模型推理再到结果输出,是一个可以直接借鉴到工作项目中的完整范本。
整门课六个多小时,二十九个视频,覆盖了MLflow的核心功能、LLMOps的最佳实践,以及Databricks平台上的完整机器学习工作流。不管你是在校学生想要建立对MLOps的整体认知,还是在职的工程师需要系统性地提升模型管理能力,这门课都能给你一个扎实的基础。课程设计成可以反复查阅的参考手册,遇到具体问题的时候随时回来看对应的章节就行。