视频课程 编程

Spark SQL 与 DataFrames 入门教程(中文

¥5.00 已售 0
✓ 自动发货 ✓ 永久有效 ✓ 售后保障

资源介绍

字幕英文视频教程) 本课程是一套体系化的 Spark 技术学习教程,聚焦 Spark SQL 与 DataFrames 核心知识与实践应用,专为想要掌握大数据处理与分析技能的学习者设计。课程包含从基础理论到实战操作的完整内容,不仅提供清晰的视频讲解,还配备中文字幕(.srt 格式)与配套练习文件,帮助学习者快速理解并上手 Spark 相关技术,降低语言与操作门槛。 课程整体结构分为 7 个核心模块与 1 个练习文件目录,涵盖 Spark 技术入门、环境搭建、数据操作、SQL 应用及数据分析实战等关键环节。其中视频文件共计 31 个,每个视频均对应中文字幕,确保学习者能准确获取课程信息,适合零基础或有一定编程基础、希望进入大数据领域的学员系统学习。 二、课程模块详情 (一)01 - 课程导论(Introduction) 该模块为课程开篇,主要帮助学习者建立对 Spark SQL 与数据分析的整体认知,明确学习前提与目标。 包含 2 个视频文件,分别是《Apache Spark SQL and data analysis》与《What you should know》,每个视频均配备中文字幕。 第一个视频详细介绍 Spark SQL 的概念、应用场景及在数据分析中的核心价值,让学习者了解该技术在大数据处理领域的重要性;第二个视频则明确学习本课程所需的基础技能与知识储备,避免学习者因基础不足影响后续学习,帮助其提前做好准备。 (二)02 - Spark DataFrames 入门(1. Introduction to Spark DataFrames) 本模块聚焦 Spark DataFrames 的基础概念与 SQL 基础应用,是后续实战操作的理论基础。 包含 2 个视频文件,《Introduction to DataFrames》与《SQL for DataFrames》,均有中文字幕辅助理解。 《Introduction to DataFrames》系统讲解 DataFrames 的定义、特性及在 Spark 中的作用,帮助学习者理解这一核心数据结构的本质;《SQL for DataFrames》则介绍如何将 SQL 语法应用于 DataFrames,搭建起传统 SQL 知识与 Spark 技术的桥梁,为后续数据查询与分析奠定基础。 (三)03 - Spark 环境搭建(2. Installing Spark) 该模块为实战操作的前置环节,详细讲解 Spark 与 PySpark 的安装步骤及 Jupyter Notebook 的配置方法,解决学习者的环境搭建难题。 包含 3 个视频文件,分别是《Install Spark》《Install PySpark》《Using Jupyter notebooks with PySpark》,每个视频均有中文字幕。 三个视频依次覆盖 Spark 基础环境安装、PySpark(Python 与 Spark 结合的工具)安装,以及如何将 Jupyter Notebook 与 PySpark 关联,确保学习者能在本地成功搭建可运行的 Spark 开发环境,避免因环境问题阻碍后续实战练习。 (四)04 - Spark DataFrames 实战入门(3. Getting Started with Spark DataFrames) 本模块是课程的核心实战模块之一,围绕 DataFrames 的实际操作展开,从环境配置到数据处理全流程覆盖,帮助学习者掌握 DataFrames 的核心用法。 包含 8 个视频文件,数量为所有模块中最多,每个视频均配备中文字幕,具体内容如下: 《Set up a Jupyter notebook》:讲解如何在 Jupyter Notebook 中配置 Spark 相关环境,为后续实战操作搭建平台; 《Load data into DataFrames CSV Files》与《Load data into DataFrames JSON Files》:分别演示如何将 CSV 格式与 JSON 格式的数据加载到 DataFrames 中,覆盖常见数据格式的导入方法; 《Basic DataFrame operations》:介绍 DataFrames 的基础操作,如数据查看、列操作等,帮助学习者熟悉数据处理的基本流程; 《Filter data with DataFrame API》《Aggregate data with DataFrame API》:讲解如何使用 DataFrame API 进行数据筛选与聚合计算,是数据分析的核心操作技能; 《Sample data from DataFrames》:演示如何从 DataFrames 中抽取样本数据,适用于大数据集下的快速分析与测试; 《Save data from DataFrames》:介绍如何将处理后的 DataFrames 数据保存为指定格式,完成数据处理的闭环。 (五)05 - DataFrames 的 SQL 应用(4. SQL for DataFrames) 本模块深入讲解 SQL 语法在 DataFrames 中的高级应用,进一步强化学习者使用 SQL 进行 Spark 数据分析的能力。 包含 6 个视频文件,均有中文字幕,具体内容如下: 《Querying DataFrames with SQL》:详细演示如何通过 SQL 语句查询 DataFrames 中的数据,覆盖基础查询语法; 《Filtering DataFrames with SQL》:讲解如何使用 SQL 进行数据筛选,包括条件判断、多条件组合等; 《Aggregating Data with SQL》:介绍 SQL 中的聚合函数在 DataFrames 中的应用,如求和、平均值计算等; 《Joining DataFrames with SQL》:演示如何通过 SQL 实现多个 DataFrames 的关联操作,解决多表数据整合问题; 《Eliminating duplicates in DataFrames》:讲解如何使用 SQL 去除 DataFrames 中的重复数据,保证数据质量; 《Working with NA values in DataFrames》:介绍如何处理 DataFrames 中的缺失值(NA 值),包括缺失值识别、填充与删除等,确保数据分析结果的准确性。 (六)06 - Spark 数据分析实战(5. Data Analysis with Spark) 本模块是课程的综合实战模块,将前面所学的 DataFrames 与 SQL 知识应用于实际数据分析场景,同时引入时间序列分析与机器学习基础,提升学习者的综合应用能力。 包含 5 个视频文件,均配备中文字幕,具体内容如下: 《Exploratory data analysis with DataFrames》与《Exploratory data analysis with Spark SQL》:分别演示如何使用 DataFrames API 与 Spark SQL 进行探索性数据分析,帮助学习者掌握数据分析的基本思路与方法; 《Timeseries analysis with DataFrames》:讲解如何使用 DataFrames 处理时间序列数据,适用于时序相关的数据分析场景,如趋势分析、周期识别等; 《Basic machine learning with DataFrames, part 1》与《Basic machine learning with DataFrames, part 2》:分两部分介绍基于 DataFrames 的基础机器学习应用,包括聚类、线性回归等算法的实现,帮助学习者初步了解 Spark 在机器学习领域的应用,为后续深入学习打下基础。 (七)07 - 课程总结与后续方向(Conclusion) 该模块为课程收尾,总结所学内容并给出后续学习建议,帮助学习者规划进一步的技术提升路径。 包含 1 个视频文件《Next steps》,配备中文字幕。 视频中梳理课程核心知识点,回顾 DataFrames 操作、SQL 应用及数据分析实战的关键技能,同时推荐后续学习的方向与资源,如深入学习 Spark 高级特性、机器学习算法等,助力学习者持续提升 Spark 技术能力。 三、配套练习文件(Ex_Files_Spark_SQL_DataFrames) 除视频讲解外,课程还提供完整的配套练习文件,包含操作指南、Jupyter Notebook 练习脚本与示例数据,帮助学习者边学边练,巩固所学知识。 操作指南:包含《Spark Mac Linux Export Environment Variables》与《Spark Windows Instructions》,分别针对 Mac/Linux 与 Windows 系统,提供 Spark 环境变量配置的详细步骤,补充视频中环境搭建的细节,确保不同系统的学习者都能顺利配置环境。 Jupyter Notebook 练习脚本:按照课程模块分为 CH 03、CH 04、CH 05 三个目录,每个目录下又分 “begin”(初始脚本)与 “end”(完成脚本)两个子目录。脚本内容与视频实战环节一一对应,学习者可从 “begin” 脚本开始,跟随视频逐步操作,最后对比 “end” 脚本检查学习成果,强化实战能力。例如 CH 03 目录包含加载 CSV/JSON 数据、DataFrames 基础操作等练习脚本,CH 04 目录包含 SQL 查询、数据去重等脚本,CH 05 目录包含探索性分析、时间序列分析及机器学习基础练习脚本。 示例数据:位于 “Data” 目录下,包含 location_temp.csv、server_name.csv、utilization.csv、utilization.json 四个文件,涵盖 CSV 与 JSON 两种常见格式,为练习脚本提供数据支持,确保学习者能直接使用真实数据进行操作,提升练习的真实性与实用性。 四、课程适合人群与学习价值 (一)适合人群 零基础或有一定编程基础,希望进入大数据领域,学习 Spark 技术的初学者; 从事数据相关工作(如数据分析师、数据开发工程师),需要掌握 Spark SQL 与 DataFrames 技能,提升工作效率的职场人士; 对大数据处理与分析感兴趣,希望通过实战课程系统学习相关技术的爱好者。