电子书编程

PySpark 分布式机器学习：从 Pandas 与 Sci

¥2.90 已售 0

✓ 自动发货 ✓ 永久有效 ✓ 售后保障

立即购买

资源介绍

kit-Learn 无缝迁移 (英文版电子书）电子书格式: pdf 在数据量呈指数级增长的当下，传统单节点计算工具（如 Pandas 和 Scikit-Learn）已难以满足大规模数据处理与分析的需求。Apache Spark 的 Python 接口 PySpark 凭借分布式计算能力，成为处理海量数据的优选框架，既能高效应对大规模数据集，又能显著提升数据处理速度，还提供了丰富的数据处理与机器学习工具集。本书专为熟悉 Pandas 和 Scikit-Learn 的数据分析与机器学习从业者编写，核心目标是帮助读者轻松实现向 PySpark 的迁移。书中以 “理论 + 实战” 为导向，通过 18 个章节系统覆盖分布式机器学习的核心知识与实操技巧，构建了从基础迁移到高级应用的完整学习路径。开篇章节聚焦 PySpark 与 Pandas 的深度集成及语法相似性，详解数据加载、列选择、数据聚合、过滤、连接、保存等基础操作的迁移方法，让读者快速适应 PySpark 的使用逻辑。随后通过算法选择章节引入 k 折交叉验证技术，帮助读者解决模型筛选与过拟合防护问题，并以皮马印第安人糖尿病数据集为例，演示如何在两种框架中进行数据探索与预处理。核心章节围绕机器学习核心算法展开，涵盖多元线性回归、决策树回归、随机森林回归、梯度提升树回归等回归算法，以及逻辑回归、决策树分类、随机森林分类、支持向量机分类、朴素贝叶斯分类、神经网络分类等分类算法。每个算法章节均采用 “Pandas+Scikit-Learn 实现” 与 “PySpark 实现” 对比的方式，清晰呈现两种框架的操作差异与共性，同时结合真实场景数据集（如房价预测、肿瘤诊断、鸢尾花分类等），详解数据准备、模型训练、评估与预测的完整流程。此外，书中还涉及推荐系统、自然语言处理、k 均值聚类等高级应用，以及超参数调优、管道构建、模型部署等工程化实践内容，帮助读者打通从模型开发到生产部署的全链路。书中所有代码案例均经过验证，读者可通过 Databricks 社区版、Google Colab 或本地环境直接运行，同时注重解析 PySpark 分布式计算的核心特性（如 VectorAssembler 向量组装、惰性求值等）与关键差异点，助力读者不仅 “会用”，更能 “活用” PySpark 的分布式优势。本书作者拥有十多年数据分析与机器学习经验，擅长 Python 标准库与 Spark 分布式计算，结合实际项目经验编写，内容兼具专业性与实用性。无论是希望拓展分布式计算技能的数据分析初学者，还是需要处理大规模数据的资深算法工程师，都能通过本书快速掌握 PySpark 分布式机器学习的核心能力，实现从传统单节点工具到分布式框架的无缝过渡，高效应对大数据时代的机器学习任务。Distributed Machine Learning with PySpark