视频课程 编程

[中字] 杜克大学 Python 与 SQL 数据工程编程实

¥2.90 已售 0
✓ 自动发货 ✓ 永久有效 ✓ 售后保障

资源介绍

战(中文字幕英文视频教程) 本课程是面向数据工程领域初学者及进阶学习者的实战型技术课程,以 Python 编程与 SQL 数据库技术为双核心,系统覆盖数据处理、脚本开发、数据库操作及数据采集的全流程技能。课程依托杜克大学严谨的教学体系,通过 "理论讲解 + 案例实操" 的模式,帮助学习者掌握数据工程岗位必备的技术能力,实现从数据处理基础到工程化实践的完整进阶,为从事数据开发、数据运维、业务分析等相关工作奠定坚实基础。 三、课程模块与核心内容 本课程共分为 4 个核心模块,每个模块聚焦特定技术方向,层层递进构建完整的知识体系,各模块均配套中文字幕、实操视频及辅助材料,确保学习效果。 模块一:Python 数据处理基础(01_working-with-data-in-python) 作为数据工程的入门基础,本模块聚焦 Python 语言的数据处理核心能力,从概念认知到实战应用逐步深入,为后续复杂开发任务筑牢根基。 课程导入:涵盖课程整体框架解析、学习路径规划及讲师团队介绍,帮助学习者快速建立对数据工程领域的宏观认知,明确各阶段学习目标与核心产出。 Python 数据结构深度解析:系统讲解数据工程中高频使用的 Python 数据结构,包括列表(List)与字典(Dictionary)的创建、访问、修改及优化技巧,结合数据存储场景对比不同结构的适用场景;同时补充元组、集合等小众数据结构的特性与实战用法,通过案例演示如何根据数据特征选择最优存储结构。 数据结构映射与迭代:重点讲解列表、字典及复合数据结构的迭代方法,包括 for 循环优化、推导式使用及高效遍历技巧;深入演示数据在不同结构间的转换逻辑与存储策略,解决多源数据整合中的格式统一问题,通过实操强化数据处理的逻辑性与效率意识。 数据持久化与读写操作:介绍主流数据格式(如 JSON、CSV)的特性与应用场景,详解 Python 中文件路径处理、文本数据读取、JSON 格式解析与生成的核心方法;通过实战案例演示如何将内存中的数据安全写入磁盘、如何从本地文件加载数据并进行预处理,掌握数据持久化的关键技术与容错技巧。 综合实战任务:以葡萄酒评分数据(wine-ratings-small.csv)为样本,指导学习者使用 Jupyter Notebook 完成数据清洗、格式重构与 JSON 标准化输出的全流程任务,综合运用数据结构与文件操作技能解决实际数据处理问题。 模块二:Python 脚本开发与 SQL 数据库应用(02_python-scripting-and-sql) 本模块实现从 "数据处理" 到 "工程开发" 的跨越,聚焦 Python 脚本化开发与轻量级数据库集成技术,培养工程化思维与数据存储能力。 Python 脚本开发基础:讲解脚本开发的核心概念与工程规范,包括脚本的模块化设计、函数封装与参数传递方法;演示如何将常用功能封装为可复用模块,以及如何通过脚本实现文件系统的自动遍历、文件属性获取等自动化任务,提升数据工程的效率。 SQLite 与 Python 集成:作为轻量级数据库的入门内容,本部分首先介绍嵌入式数据库的特性与适用场景,重点解析 SQLite 的优势与使用限制;随后通过实操演示如何使用 Python 连接 SQLite 数据库、创建数据表、执行数据插入 / 查询 / 更新 / 删除等操作,掌握 "Python + 嵌入式数据库" 的轻量化数据存储方案。 SQL 查询核心技术:系统讲解 SQL 基础语法在 Python 开发中的应用,包括 SELECT 语句优化、WHERE 条件筛选、DISTINCT 去重等核心操作;聚焦数据工程中的高频查询场景,演示如何通过参数化查询避免安全风险,以及如何将查询结果转换为 Python 数据结构进行后续处理。 综合实战任务:以文件大小统计为业务场景,指导学习者开发自动化报表脚本。通过遍历文件系统、采集文件属性、存储数据到数据库、生成统计报表的全流程开发,综合运用脚本开发与 SQL 技术,实现数据采集 - 存储 - 分析的自动化闭环。 模块三:Python 网络数据采集技术(03_web-scraping-using-python) 本模块聚焦数据工程的 "数据来源" 问题,系统讲解网络数据采集的核心技术与合规实践,培养从非结构化网页中提取有效数据的能力。 网络数据采集基础:介绍网页结构与 HTML 解析原理,明确网络数据采集的核心概念与技术边界;深入分析网页数据提取的常见挑战,如动态内容加载、反爬机制、数据格式混乱等,并给出对应的技术解决方案,强调合规采集与尊重网站 robots 协议的重要性。 HTML 解析与基础采集:讲解 Python 内置 HTMLParser 模块的使用方法,演示如何通过标签定位、属性匹配等方式提取网页中的文本数据;通过实例对比不同解析方法的效率差异,培养高效提取结构化数据的思维。 Scrapy 框架与 XPath 技术:作为专业采集工具的核心内容,本部分首先介绍 Scrapy 框架的架构与优势,指导学习者搭建采集项目环境;随后深入讲解 XPath 语法在数据定位中的应用,通过 Scrapy Shell 实时调试 XPath 表达式,实现精准数据提取;最后演示 Spider 爬虫的开发流程,包括请求发送、响应处理、数据提取的全链路实现。 采集数据持久化与效率优化:针对采集数据的存储需求,讲解如何将提取的数据导出为 CSV、JSON 等格式文件,以及如何批量写入 SQLite 数据库;同时聚焦采集效率与稳定性提升,介绍请求重试、代理池配置、爬取频率控制等优化手段,强调通过技术手段实现合规、高效、稳定的采集流程。 综合实战任务:以公开合规的网页为数据源,指导学习者开发完整爬虫项目。从项目搭建、XPath 调试、爬虫开发到数据存储的全流程实操,强化对采集技术的综合应用能力,同时培养数据质量校验与异常处理的工程思维。 模块四:MySQL 数据库实战应用(04_working-with-mysql) 本模块升级数据库技术栈,聚焦企业级关系型数据库 MySQL 的实战应用,覆盖从环境配置到数据迁移的全流程技能,强化数据工程的 "存储与管理" 能力。 MySQL 与开发环境配置:介绍 MySQL 的企业级应用场景与核心优势,指导学习者搭建 VSCode 与 MySQL 的集成开发环境;详细演示如何通过 VSCode 配置数据库连接、管理连接会话,以及如何利用开发工具的辅助功能提升 SQL 编写效率。 MySQL 查询进阶与安全实践:针对企业级数据库的使用需求,分析 MySQL 查询中的常见问题(如性能瓶颈、语法错误),演示如何通过执行计划优化查询语句;重点强调数据库安全操作规范,包括权限管理、密码策略、SQL 注入防护等关键措施,培养安全合规的数据库使用习惯。 数据导入导出与批量处理:聚焦企业级数据迁移场景,讲解 MySQL 中 CSV 数据的批量导入方法,包括导入参数配置、数据格式校验、错误处理机制等;同时演示如何将数据库数据导出为多种格式文件,满足数据备份、报表生成等业务需求;补充讲解通过终端命令行操作 MySQL 的高效技巧,以及 bash 管道与 MySQL 结合的批量处理方案。 数据库管理与安全防护:针对数据库运维需求,讲解数据库的备份、归档与删除操作规范,强调数据备份的重要性与恢复演练的必要性;结合 "MySQL 安全防护" 相关内容,重点解析数据库常见安全风险(如未授权访问、弱密码、敏感数据泄露等),系统介绍安全防护措施,包括账户权限最小化、数据加密存储、访问日志审计等,提升数据库系统的安全防御能力。 综合实战任务:以外部数据库(Sakila)为样本,指导学习者完成数据库导入、表结构修改、数据批量加载、导出报表的全流程操作;通过开发 Python 与 MySQL 集成的简单 Web 服务,实现数据查询接口的开发,综合运用数据库操作与 Python 编程技能,构建 "数据库 - 应用" 的连接桥梁。 四、课程特色与学习价值 体系化知识架构:课程从 Python 基础到数据库实战、从本地数据处理到网络数据采集,构建了 "基础能力 - 工具应用 - 工程实践" 的完整知识链,符合数据工程岗位的技能需求逻辑,避免碎片化学习。 强实操性导向:每个知识点均配套对应的实操视频与案例材料,4 个模块均设置综合实战任务,通过 "理论讲解 - 代码演示 - 独立实操" 的闭环,确保学习者能够将知识转化为实际开发能力。 技术栈贴合企业需求:课程覆盖的 Python 数据处理、SQL 查询、Scrapy 采集、MySQL 运维等技术,均为当前数据工程领域的高频使用技能,学习内容与企业岗位需求高度匹配,提升就业竞争力。 重视安全与合规意识:在数据库操作、网络采集等模块中,重点强调合规实践与安全防护,特别是针对数据库安全风险给出具体防护方案,培养学习者的工程伦理与安全思维。 多场景适配性:课程内容既包含轻量化的嵌入式数据库方案,也涵盖企业级的 MySQL 应用;既适合个人开发者的小体量数据处理,也能支撑企业级的数据工程需求,适配不同学习目标的学习者。 五、适用人群 数据工程、数据开发领域的初学者,希望系统掌握核心技术栈; 从事业务分析、运维等工作,需要提升 Python 与数据库技能的职场人; 对数据采集、数据存储有实际需求的技术人员; 希望转型进入数据领域,需要夯实工程实践能力的学习者。 通过本课程的学习,学习者能够全面掌握数据工程的核心技术与实战方法,具备独立完成数据采集、处理、存储、分析的全流程能力,为从事数据相关工作奠定坚实的技术基础。