电子书 编程

使用 Dask 扩展 Python:从数据科学到机器学习

¥2.90 已售 0
✓ 自动发货 ✓ 永久有效 ✓ 售后保障

资源介绍

(英文版电子书) 电子书格式: pdf 在现代计算环境中,多核心 CPU 与专用加速硬件的普及为并行计算提供了充足的硬件基础,但许多 Python 科学计算工具并未充分利用这一潜力。《使用 Dask 扩展 Python:从数据科学到机器学习》作为一本实用指南,专为数据科学家和 Python 开发者打造,聚焦于如何通过 Dask 开源并行计算库,轻松实现 NumPy、pandas、scikit-learn 等主流 PyData 库的并行化扩展,让 Python 代码突破单机器、单核心的限制,适配从本地单机到云端集群的各类工作负载。 本书由分布式计算领域专家执笔,结合工业界与学术界的实践经验,系统讲解 Dask 的核心原理与应用方法。全书结构清晰,从基础概念到高级实践层层递进:首先介绍 Dask 的定位与生态角色,解答为何在现有工具体系中需要 Dask;随后引导读者完成本地环境搭建与基础案例实践,通过 "Hello World" 系列示例、单词计数等经典场景,帮助读者快速上手任务并行与分布式集合操作;核心章节深入解析 Dask 的执行机制,包括本地与分布式执行后端、数据分区策略、任务图与惰性求值、容错机制等关键技术点,为高效使用 Dask 奠定理论基础。 针对数据处理的核心场景,本书详细阐述了 Dask 三大核心集合(DataFrame、Array、Bag)的使用方法:Dask DataFrame 兼容 pandas API,支持大规模结构化数据的加载、清洗、聚合与连接操作;Dask Array 适配 NumPy 接口,适用于多维数组数据的并行计算;Dask Bag 则专为非结构化或半结构化数据设计,擅长处理日志解析、文本处理等 "脏数据" 场景。此外,书中还涵盖了高级任务调度、状态管理、GPU 加速、机器学习集成等进阶内容,满足复杂场景下的应用需求。 在工程实践层面,本书提供了丰富的部署方案,包括 Kubernetes、YARN、高性能计算集群等多种环境下的 Dask 部署方法,同时讲解了性能调优、监控诊断、错误调试的实用技巧,帮助读者将 Dask 应用从实验环境平稳迁移到生产系统。书中贯穿的实际案例,从纽约市出租车数据的探索性分析到机器学习模型的分布式训练,展示了 Dask 在实际业务中的应用价值,让读者能够快速将所学知识转化为解决问题的能力。 作为连接 Python 数据科学生态与分布式计算的桥梁,Dask 的核心优势在于无需重构现有代码即可实现规模化扩展,这使得熟悉 Python 生态的开发者能够零门槛进入并行计算领域。本书不仅适合希望处理大规模数据的数据分析人员、机器学习工程师,也适合需要构建分布式数据管道的软件开发者,是一本兼具理论深度与实践价值的技术手册,助力读者在数据量与计算复杂度持续增长的背景下,提升数据处理与建模的效率。