
资源介绍
电子书)
《实战数据分析》旨在通过解决现实世界中的问题来帮助你提升数据分析技能。本书呈现了八个你在作为分析师时可能会遇到的场景,每个场景都对应一个你在数据教育中经常会接触到的行业主题。本书还提供了一个可用于解决任何分析问题的框架,主要是通过帮助你在开始之前正确地定义问题。
本书读者对象
本书面向希望在基础数据分析技能上进一步提升,并渴望接触现实世界问题的初级或新晋数据分析师。读者应至少有六个月的数据工作经验,并且熟悉问题框架、数据清洗、分析和可视化。即使是经验丰富的分析师也会从解决本书中的问题中受益,因为我们的学习永无止境。
本书结构:路线图
本书包含八个可供尝试的数据分析项目,分布在 13 个章节中。从第 2 章开始,每一章都描述一个项目,解释可用的数据,提供一个循序渐进的框架,说明你可能如何着手该项目,并提供一个用 Python 实现的示例解决方案:
第 1 章介绍了一个以结果为导向的框架,你可以将其应用于任何数据分析问题。它还详细介绍了如何将该框架应用于一个现实世界的场景。
第 2 章包含第一个项目。在这个项目中,任务是从无格式的地址数据中检索信息。本章详细介绍了如何将结果导向框架应用于具体问题。
第 3 章是关于数据建模的。在这个项目中,需要从原始交易数据中检索和去重客户信息。
第 4 章是关于定义指标的。该项目要求你定义什么是产品的最佳表现者,并据此分析数据。
第 5 章涉及非常规数据源。项目任务是分析新冠肺炎封锁期间及之后电影行业的变化。为此,你需要从一系列 PDF 文件中检索数据。
第 6 章介绍了一个关于处理分类数据的项目。你的任务是分析一份开发者调查,以了解人们对数据分析工具的态度。本章的示例解决方案侧重于探索数据并回答一些初步问题。
第 7 章继续上一章的项目。在示例解决方案中,我们应用更高级的方法来处理分类数据,以便更好地理解调查结果。
第 8 章介绍了下一个项目,即处理时间序列数据。任务是探索交通数据,以了解自行车基础设施可以如何改进。本章的示例解决方案包含对该数据的探索和初步分析。
第 9 章继续上一章的时间序列项目,应用更高级的方法,包括预测未来的交通流量。该项目的结果也进行了讨论。
第 10 章介绍了一个新项目,即关于在现有数据的情况下创建快速概念验证,以测试一个想法的可行性。在本章的示例解决方案中,数据被探索、分析并导出,以便在后续章节中使用。
第 11 章包含了我们在第 10 章中准备的示例概念验证的构建过程。对该应用程序的设计和构建进行了详细描述。
第 12 章介绍了最后一个项目,即接手他人的分析工作。你的任务是回顾另一位分析师的工作,并在下一章中创建该分析的版本。主题是客户细分,具体来说,是分析手机活动以发现不同的客户行为。
第 13 章包含最后一个项目示例解决方案的第二部分。它详细介绍了如何使用手机活动数据创建不同的客户细分,以及如何向利益相关者展示这些细分。
阅读本书的最佳方式是从第 1 章开始,了解框架,然后阅读第 2 章,感受项目章节的结构。例如,在阅读任何示例解决方案之前,我强烈建议你自己尝试这个项目。在第 2 章之后,我建议选择一个你感兴趣的项目。第 2 到第 8 章、第 10 章和第 12 章介绍了这八个项目。它们不需要按顺序完成。