电子书编程

基于 Python 的地理数据科学（英文版电子书）

¥1.90 已售 0

✓ 自动发货 ✓ 永久有效 ✓ 售后保障

立即购买

资源介绍

核心内容框架本书结构清晰，分为 “基础构建模块”“空间数据分析”“高级主题” 三大部分，层层递进，兼顾理论深度与实践操作性。（一）基础构建模块此部分聚焦地理数据科学的核心概念与基础工具，为后续分析奠定基础。地理思维与数据表示：深入阐释地理思维的核心内涵，指出地理数据不仅包含位置信息，更重要的是能通过位置理解观测对象间的关联，如 “近邻事物在空间和时间上更可能相关” 的地理规律。同时，详细介绍地理数据的三种核心概念模型 —— 对象模型（离散实体，如单个建筑物、区域）、场模型（连续表面，如气温分布、人口密度）与网络模型（对象或场中位置间的连接关系，如交通路网），以及对应的计算表示形式，即地理表格（如 GeoDataFrame）、表面数据结构（如 xarray 的 DataArray）和空间图（如 networkx 的图对象），并探讨概念模型与计算表示之间的关联与转换。地理数据科学的计算工具：围绕开源科学理念，重点介绍三大核心工具。一是计算笔记本（以 Jupyter 笔记本为例），它能整合叙述文本、代码及代码输出，支持交互式工作与多格式转换，便于记录和分享分析流程；二是 Python 及开源包，Python 凭借动态解释特性适合科学计算，搭配 geopandas、xarray 等开源包，可实现地理数据的读取、处理与分析，且支持通过 “import” 语句灵活导入包及指定函数；三是容器化平台（如 Docker），能封装完整的计算环境，确保代码在不同设备上可复现，书中还提供了基于 Docker 运行本书代码的具体步骤。空间数据基础：详细讲解地理表格、表面、空间图三种基础空间数据结构在 Python 中的实现与操作。地理表格以 GeoDataFrame 为核心，通过几何列存储地理信息，支持点、线、面等多种几何类型及相关空间操作；表面数据借助 xarray 的 DataArray 表示，包含空间维度（x、y）与其他维度（如时间、波段），并附带坐标、投影等元数据；空间图可通过 osmnx 等库获取和处理，能转换为节点与边的地理表格，便于独立分析各组件属性。此外，还探讨了数据结构的混合应用，如将表面数据转换为表格以利用表格分析工具，或反之将点数据聚合为表面以解决点数据过密问题。空间权重：作为表示地理关系的关键工具，空间权重用于量化观测单元间的地理关联，书中介绍了多种构建方式。邻接权重基于对象间的邻接关系（如棋盘格中 “车”“后” 型邻接）；距离权重依据观测单元间的距离构建，包括 k 近邻权重（指定 k 个最近邻）、核权重（距离衰减函数）、距离带权重（指定距离阈值）等；块权重基于观测单元的分组归属构建；还可通过集合运算组合不同权重。同时，展示了空间权重在边界检测等实际场景的应用，如分析相邻区域的收入差异以识别潜在边界。（二）空间数据分析该部分围绕探索性空间数据分析（ESDA）展开，帮助读者识别地理数据中的空间模式。分级设色地图：作为地理数据可视化的核心工具，分级设色地图通过颜色编码展示区域数据。书中详细介绍了数据分类方法，如等间隔分类（按值范围等距划分）、分位数分类（使每类包含大致相等数量观测）、均值 - 标准差分类（基于均值与标准差划分）等，并对比不同方法的适用场景，还讲解了颜色选择原则，根据数据类型（顺序型、发散型、定性型）匹配对应的颜色方案，同时提供了自定义分类与多图统一分类的实现方法。全局空间自相关：用于衡量整体空间模式，即观测值的相似性与空间位置相似性的关联。书中以英国脱欧公投数据为例，介绍了空间滞后的计算（反映观测单元周边的平均情况），以及全局空间自相关的统计量，如二元数据的连接计数统计（分析同类或异类相邻对数量）、连续数据的莫兰指数（通过莫兰散点图直观展示，指数值对应散点图拟合线斜率）、盖瑞系数、Getis-Ord G 统计量等，并通过模拟随机分布数据，计算伪 p 值以检验统计显著性。局部空间自相关：聚焦单个观测单元与其周边的关联，弥补全局统计量无法定位局部异常的不足。以局部莫兰指数（LISA）为核心，通过莫兰散点图的四个象限（高 - 高、低 - 高、低 - 低、高 - 低）分类观测单元，结合统计显著性识别空间聚类（如高值聚类、低值聚类）与异常值。此外，还介绍了 Getis-Ord 局部统计量，以及将局部统计方法应用于表面数据的思路，拓展了方法的适用范围。点模式分析：针对点事件的空间分布，介绍了多种可视化与分析方法。可视化方面，通过散点图结合底图展示点分布，利用六边形分箱或核密度估计解决点过密问题；中心性分析包括计算均值中心、中位数中心衡量集中趋势，标准距离、标准偏差椭圆衡量分散程度，以及多种边界形状（如凸包、阿尔法形状）描述点模式范围；聚类分析通过模拟随机点模式，结合象限统计（检验点在网格中的分布均匀性）、Ripley 函数（分析不同距离下的点分布特征）判断点模式是否聚类，还介绍了 DBSCAN 算法用于识别具体聚类位置。（三）高级主题此部分将前面的基础理论与方法应用于实际场景，展示地理数据科学的高级应用。空间不平等动态：以美国县域人均收入数据为例，探讨不平等的空间维度。先介绍传统不平等测度（如 20:20 比率、基尼系数、泰尔指数）及其时间演变，再引入空间视角，通过全局空间自相关分析收入分布的地理聚集性，利用泰尔指数的区域分解区分区域间与区域内不平等，还提出空间化基尼系数，通过分解相邻与非相邻观测对的差异，量化空间邻近对不平等的贡献。聚类与区域化：将无监督学习与地理结合，介绍地理单元的聚类与区域化方法。聚类方面，对比 k 均值聚类（非空间）与层次聚类，分析聚类结果的空间分布与统计特征；区域化则是考虑空间连续性的聚类，通过约束相邻单元归为同一区域，平衡地理连贯性与特征拟合度，还探讨了不同空间约束与解决方案相似性的影响。空间回归：将空间因素融入回归分析，解决传统回归忽略空间效应的问题。介绍了空间特征工程（如构建邻近变量）、空间异质性处理（如空间固定效应、空间制度）、空间依赖性处理（如空间滞后模型、空间误差模型）等方法，以圣地亚哥 Airbnb 数据为例，展示如何通过空间回归改进模型预测效果。空间特征工程：聚焦如何利用地理特性构建更优特征以提升模型性能。介绍了基于邻近性的特征（如计数周边兴趣点）、基于插值的特征（如将点数据插值到网格）、基于地图合成的特征（如计算缓冲区内的统计量）、基于聚类的特征（如识别 Airbnb 聚类用于价格预测）等构建方法，为后续建模提供高质量输入特征。三、书籍特色与价值理论与实践结合：既系统阐述地理数据科学的理论基础，如地理思维、空间数据模型等，又提供丰富的 Python 代码示例，读者可直接复现、改编代码，将理论知识应用于实际问题。开源与可复现：基于 Python 开源生态，推荐使用开源工具与平台，确保分析流程的开放性；同时强调容器化等可复现技术，降低代码在不同环境下的运行障碍，符合科学研究的可复现原则。兼顾多学科视角：融合地理学、数据科学、统计学等多学科知识，既满足地理学者对数据科学方法的需求，也帮助数据科学家理解地理数据的特殊性，促进跨领域协作。实用性强：内容涵盖从基础工具使用到高级应用开发的全流程，案例均来自实际场景（如脱欧公投、Airbnb 定价），读者可将所学直接应用于实际工作与研究，解决真实地理数据问题。