电子书编程

使用 Dask 扩展 Python：从数据科学到机器学习

¥2.90 已售 0

✓ 自动发货 ✓ 永久有效 ✓ 售后保障

立即购买

资源介绍

(英文版电子书）电子书格式: pdf 在现代计算环境中，多核心 CPU 与专用加速硬件的普及为并行计算提供了充足的硬件基础，但许多 Python 科学计算工具并未充分利用这一潜力。《使用 Dask 扩展 Python：从数据科学到机器学习》作为一本实用指南，专为数据科学家和 Python 开发者打造，聚焦于如何通过 Dask 开源并行计算库，轻松实现 NumPy、pandas、scikit-learn 等主流 PyData 库的并行化扩展，让 Python 代码突破单机器、单核心的限制，适配从本地单机到云端集群的各类工作负载。本书由分布式计算领域专家执笔，结合工业界与学术界的实践经验，系统讲解 Dask 的核心原理与应用方法。全书结构清晰，从基础概念到高级实践层层递进：首先介绍 Dask 的定位与生态角色，解答为何在现有工具体系中需要 Dask；随后引导读者完成本地环境搭建与基础案例实践，通过 "Hello World" 系列示例、单词计数等经典场景，帮助读者快速上手任务并行与分布式集合操作；核心章节深入解析 Dask 的执行机制，包括本地与分布式执行后端、数据分区策略、任务图与惰性求值、容错机制等关键技术点，为高效使用 Dask 奠定理论基础。针对数据处理的核心场景，本书详细阐述了 Dask 三大核心集合（DataFrame、Array、Bag）的使用方法：Dask DataFrame 兼容 pandas API，支持大规模结构化数据的加载、清洗、聚合与连接操作；Dask Array 适配 NumPy 接口，适用于多维数组数据的并行计算；Dask Bag 则专为非结构化或半结构化数据设计，擅长处理日志解析、文本处理等 "脏数据" 场景。此外，书中还涵盖了高级任务调度、状态管理、GPU 加速、机器学习集成等进阶内容，满足复杂场景下的应用需求。在工程实践层面，本书提供了丰富的部署方案，包括 Kubernetes、YARN、高性能计算集群等多种环境下的 Dask 部署方法，同时讲解了性能调优、监控诊断、错误调试的实用技巧，帮助读者将 Dask 应用从实验环境平稳迁移到生产系统。书中贯穿的实际案例，从纽约市出租车数据的探索性分析到机器学习模型的分布式训练，展示了 Dask 在实际业务中的应用价值，让读者能够快速将所学知识转化为解决问题的能力。作为连接 Python 数据科学生态与分布式计算的桥梁，Dask 的核心优势在于无需重构现有代码即可实现规模化扩展，这使得熟悉 Python 生态的开发者能够零门槛进入并行计算领域。本书不仅适合希望处理大规模数据的数据分析人员、机器学习工程师，也适合需要构建分布式数据管道的软件开发者，是一本兼具理论深度与实践价值的技术手册，助力读者在数据量与计算复杂度持续增长的背景下，提升数据处理与建模的效率。