视频课程编程

动手实践AI——基于开源技术从零构建检索增强生成（RAG）模

¥5.00 已售 1

✓ 自动发货 ✓ 永久有效 ✓ 售后保障

立即购买

资源介绍

型 (中文字幕英文视频教程) 本课程《动手实践AI——基于开源技术从零构建检索增强生成（RAG）模型》是一门面向开发者和AI爱好者的进阶实践课程，旨在通过系统化的技术拆解与实战操作，帮助学员掌握从数据准备到模型部署的全流程技术能力。课程以开源工具链为核心，结合理论讲解与代码实践，覆盖大语言模型（LLM）的本地化运行、数据向量化处理、向量数据库搭建、检索增强生成（RAG）管道构建等关键环节，最终实现一个可运行的RAG系统。课程共包含25个教学视频（25个.mp4文件），每个视频均配备中文字幕（.srt文件），确保学习者无语言障碍。课程内容分为六大模块，从基础概念到工程实践层层递进，适合具备Python编程基础、对自然语言处理（NLP）有初步了解的学员。通过本课程，学员将掌握如何利用开源生态构建安全可控的AI应用，避免依赖闭源商业服务，同时提升系统安全防护能力。模块一：RAG模型入门（1章，2个视频）本模块通过2个视频课程，为学员建立RAG模型的技术认知框架。视频1：RAG模型基础介绍从技术原理出发，解析RAG（Retrieval-Augmented Generation）如何通过结合检索与生成能力，解决传统大语言模型在事实准确性、时效性上的局限。课程通过案例对比，说明RAG在金融报告生成、法律文书分析等场景中的优势。视频2：开源LLM的本地化运行详细演示如何通过开源框架（如Ollama）在本地环境部署大语言模型，强调数据隐私与系统安全的重要性。课程包含环境配置、模型加载、API调用的完整流程，并指导学员通过容器化技术（如Docker）隔离运行环境，降低系统风险。模块二：概念与核心技术（2章，12个视频）本模块深入讲解RAG系统的四大核心技术，通过12个视频构建完整知识体系。 1. 数据收集与语料库构建视频1：多源数据采集策略介绍如何从网页、PDF、Word等结构化/非结构化数据源中提取文本，使用开源工具（如Docling）实现自动化处理。课程强调数据清洗的重要性，避免噪声数据影响模型效果。视频2：语料库生成实践通过代码示例，演示如何将采集的数据转换为模型可读的格式，并建立索引以提高检索效率。 2. 向量嵌入与数据库管理视频3：向量嵌入技术解析从数学原理到工程实现，讲解如何将文本转换为高维向量（Embedding），并对比不同嵌入模型（如BERT、Sentence-Transformers）的适用场景。视频4：向量数据库搭建以Postgres为例，指导学员配置支持向量检索的数据库，设计包含文本、向量、文件路径的复合数据表结构。视频5：数据上传与检索优化通过Python脚本实现向量、文本、文件名的批量上传，并演示如何通过近似最近邻（ANN）算法加速检索。 3. 查询处理与上下文准备视频6：查询向量化与相似度匹配讲解如何将用户查询转换为向量，并通过余弦相似度等指标筛选相关文本片段。视频7：上下文拼接与提示工程结合检索结果与LLM生成能力，设计动态提示词（Prompt），确保输出内容既包含事实依据又符合语言习惯。课程提供多种提示模板，并分析其适用场景。 4. 安全防护与工程实践视频8：系统安全加固针对数据泄露、模型攻击等风险，介绍输入过滤、输出校验、访问控制等防护措施。例如，通过正则表达式过滤恶意查询，使用哈希算法验证数据完整性。视频9：开发环境隔离演示如何使用VS Code的Dev Container功能创建标准化开发环境，避免依赖冲突与配置错误。模块三：LLM与数据准备（3章，6个视频）本模块聚焦LLM的本地化开发与数据预处理，通过6个视频完成核心组件搭建。视频1：开发容器配置详细说明如何通过Dockerfile定义依赖库、环境变量，实现一键部署开发环境。视频2：Ollama环境搭建从安装到API调用，指导学员在本地运行开源LLM，并通过日志监控、资源限制等手段保障系统稳定性。视频3：模型文件定制讲解如何修改模型配置文件（如温度参数、最大生成长度），优化输出结果。视频4：Python集成开发通过代码示例，演示如何使用Ollama的Python SDK实现模型调用、流式输出等功能。视频5：语料库自动化生成结合爬虫框架（如Scrapy）与NLP工具，构建端到端的语料库生成流水线。视频6：多格式文件解析使用Docling库解析PDF、Excel等文件，提取结构化数据并统一存储格式。模块四：数据库与向量检索（4章，5个视频）本模块通过5个视频深化数据库与检索技术，确保系统高效运行。视频1：向量嵌入的工程实现对比不同嵌入模型的性能，选择适合业务场景的方案（如高精度或低延迟）。视频2：Postgres向量扩展配置安装pgvector插件，创建支持向量检索的索引，优化查询速度。视频3：数据库模式设计设计包含id、text、embedding、metadata的表结构，支持多维度检索。视频4：批量数据上传编写Python脚本实现向量与文本的批量插入，处理冲突与重复数据。视频5：动态内容检索根据用户查询实时检索相关文本，并通过缓存机制减少数据库压力。模块五：RAG管道整合（5章，5个视频）本模块通过5个视频完成系统整合，构建可运行的RAG模型。视频1：RAG管道架构设计划分数据层、检索层、生成层，明确各模块交互逻辑。视频2：上下文准备（上）实现查询扩展、结果去重等功能，提升检索质量。视频3：上下文准备（下）动态调整上下文长度，避免信息过载或缺失。视频4：高级提示工程设计多轮对话提示词，支持复杂查询分解与结果聚合。视频5：系统联调与优化通过日志分析、性能测试，定位并修复检索延迟、生成错误等问题。模块六：总结与展望（6章，1个视频）本模块通过1个视频总结课程成果，并展望技术发展方向。视频1：下一步学习路径建议学员探索多模态RAG、分布式向量数据库等进阶主题，同时强调持续监控模型输出、更新数据源的重要性，以维护系统安全性与准确性。课程特色开源优先：全程使用Ollama、Postgres、Docling等开源工具，降低技术门槛与成本。安全导向：从数据采集到模型部署，贯穿安全防护设计，避免隐私泄露与系统攻击。实战驱动：每个知识点配套代码示例与操作演示，确保学员“学完即用”。中文支持：视频字幕与文档均为中文，无语言障碍。本课程适合希望掌握RAG核心技术、构建可控AI系统的开发者，也适合企业技术团队作为内部培训资料。通过系统学习，学员将具备独立开发安全、高效RAG应用的能力，为业务赋能。