视频课程 编程

Databricks数据工程实战:PySpark、SQL与Delta Lake全攻略 (英文课程中文字幕)

¥5.00 已售 0
✓ 自动发货 ✓ 永久有效 ✓ 售后保障

资源介绍

视频数量:40个 总时长:6小时24分 课程介绍: Databricks数据工程实战:PySpark、SQL与Delta Lake全攻略 你接过一个任务:处理一份上百万行的销售数据。打开Excel,它直接卡死了。用Python写脚本吧,结果内存不够,程序直接报错。换成传统数据库,导入数据又得好几个小时。有没有一种工具,能让你在浏览器里写几行代码,轻松处理海量数据,还能直接和同事共享你的分析成果? Databricks就是为解决这个问题诞生的。它把Apache Spark的强大能力包装成一个云端协作平台,让数据工程师和数据分析师不用操心集群管理,专注在数据处理本身。这门课会带着你从零开始,一步步掌握Databricks的核心功能,最终能够独立构建一套完整的数据处理管道。 课程首先会告诉你Databricks到底是什么。很多人听说过Spark,但不清楚Databricks和Spark之间的关系。简单说,Databricks就是Spark的创造者创办的公司,他们把Spark做成了一个托管服务,省去了你自己搭建集群、维护环境的麻烦。课程从最基础的概念讲起,解释Workspace是什么、Cluster如何工作、DBFS是什么。你会理解为什么数据文件上传到Databricks后,可以通过一个路径直接访问,而不用每次都手动下载。 动手环节从创建社区版账户开始,这里不需要你花一分钱。社区版提供了完整的Databricks功能,虽然有使用限制,但足够你跟着课程把每个知识点都过一遍。课程会演示Workspace的界面布局,告诉你Notebook在哪里找到,怎么创建一个新的Notebook,以及Notebook支持哪些编程语言。接着创建一个真实的集群,看着它慢慢启动,然后你就可以在Notebook里写下第一行PySpark代码了。那种感觉就像打开了一扇通往大数据世界的大门。 接下来进入数据处理的核心环节。课程会教你如何把本地文件上传到Databricks环境,然后读取CSV文件和JSON文件。这里有个细节值得注意:JSON数据有时会包含嵌套数组,这种数据直接展开是个技术活。课程专门拿出一讲讲解JSON数组的展开操作,手把手演示怎么处理这种复杂结构。数据读取进来后,怎么写回到存储里,怎么创建表让数据可以复用,这些内容都会讲到。 有了数据基础后,课程分成两条线展开:一条是SQL,一条是PySpark。你可以根据自己的背景选择先学哪条,也可以两条都学。SQL那条线从创建表开始,接着讲过滤、聚合、JOIN这些基本操作。但这门课不止步于此,它会教你用SQL做数据转换,把原始数据变成分析需要的格式。比如你有一张销售明细表,需要计算每笔订单的总金额,用SQL怎么写,课程会一步步演示。 PySpark那条线则会带你理解DataFrame这个核心数据结构。DataFrame看起来像一张表,但背后的运作原理完全不同。DataFrame里的数据是分布式存储的,处理时会自动并行化。课程会解释Spark的执行模型:它不会立刻执行代码,而是构建一个逻辑计划,等到你触发action时才真正运行,这种延迟执行的机制让Spark能够自动优化执行流程。在PySpark里怎么读取数据、选择列、转换列、处理空值、进行聚合和JOIN,这些内容都有专门的讲解。特别是处理空值这个环节,在真实项目中会频繁遇到,课程会教你几种常用的处理策略。 Delta Lake是Databricks生态里最重要的组件之一,它为数据湖带来了事务支持。传统的Parquet文件虽然存储效率高,但没有ACID保证,多个人同时写入很容易出问题。Delta Lake解决了这个问题。课程会对比Delta和Parquet的区别,演示如何更新Delta表、如何用Merge操作实现增量更新、如何利用Time Travel功能查看历史版本的数据。这些能力在实际项目中非常实用,特别是当你想做数据回溯或者实现数据可审计性时。 课程的压轴部分是构建一个真实的ETL管道。你会看到一套完整的数据处理架构是怎么设计的:原始数据层Raw Layer负责接收上游系统的原始数据,清洗层Silver Layer负责数据清洗和标准化,分析层Gold Layer负责聚合和建模。课程提供了真实的业务数据——客户信息表、订单表、产品表、销售表。你会亲手创建这三个层级,编写PySpark代码实现数据清洗,看着那些充满空值、格式不一致的原始数据如何一步步变成干净整齐的分析表。最后有一个端到端的演示,把整个管道跑一遍,让你看到数据从进入系统到产出结果的全流程。 学完这门课,你收获的不只是几个工具的使用技巧。你会对数据工程的完整流程有一个清晰的认识,知道怎么把业务需求转化成技术实现,怎么设计数据管道的层次结构,怎么选择合适的工具和语法处理不同阶段的数据。PySpark和SQL两种方式你都掌握了,面对不同的场景可以灵活选择。如果你准备从事数据工程相关工作,或者想在现有岗位上提升数据处理能力,这门课会给你一个扎实的起点。