电子书 编程

基于 Python 的地理数据科学(英文版电子书)

¥1.90 已售 0
✓ 自动发货 ✓ 永久有效 ✓ 售后保障

资源介绍

核心内容框架 本书结构清晰,分为 “基础构建模块”“空间数据分析”“高级主题” 三大部分,层层递进,兼顾理论深度与实践操作性。 (一)基础构建模块 此部分聚焦地理数据科学的核心概念与基础工具,为后续分析奠定基础。 地理思维与数据表示:深入阐释地理思维的核心内涵,指出地理数据不仅包含位置信息,更重要的是能通过位置理解观测对象间的关联,如 “近邻事物在空间和时间上更可能相关” 的地理规律。同时,详细介绍地理数据的三种核心概念模型 —— 对象模型(离散实体,如单个建筑物、区域)、场模型(连续表面,如气温分布、人口密度)与网络模型(对象或场中位置间的连接关系,如交通路网),以及对应的计算表示形式,即地理表格(如 GeoDataFrame)、表面数据结构(如 xarray 的 DataArray)和空间图(如 networkx 的图对象),并探讨概念模型与计算表示之间的关联与转换。 地理数据科学的计算工具:围绕开源科学理念,重点介绍三大核心工具。一是计算笔记本(以 Jupyter 笔记本为例),它能整合叙述文本、代码及代码输出,支持交互式工作与多格式转换,便于记录和分享分析流程;二是 Python 及开源包,Python 凭借动态解释特性适合科学计算,搭配 geopandas、xarray 等开源包,可实现地理数据的读取、处理与分析,且支持通过 “import” 语句灵活导入包及指定函数;三是容器化平台(如 Docker),能封装完整的计算环境,确保代码在不同设备上可复现,书中还提供了基于 Docker 运行本书代码的具体步骤。 空间数据基础:详细讲解地理表格、表面、空间图三种基础空间数据结构在 Python 中的实现与操作。地理表格以 GeoDataFrame 为核心,通过几何列存储地理信息,支持点、线、面等多种几何类型及相关空间操作;表面数据借助 xarray 的 DataArray 表示,包含空间维度(x、y)与其他维度(如时间、波段),并附带坐标、投影等元数据;空间图可通过 osmnx 等库获取和处理,能转换为节点与边的地理表格,便于独立分析各组件属性。此外,还探讨了数据结构的混合应用,如将表面数据转换为表格以利用表格分析工具,或反之将点数据聚合为表面以解决点数据过密问题。 空间权重:作为表示地理关系的关键工具,空间权重用于量化观测单元间的地理关联,书中介绍了多种构建方式。邻接权重基于对象间的邻接关系(如棋盘格中 “车”“后” 型邻接);距离权重依据观测单元间的距离构建,包括 k 近邻权重(指定 k 个最近邻)、核权重(距离衰减函数)、距离带权重(指定距离阈值)等;块权重基于观测单元的分组归属构建;还可通过集合运算组合不同权重。同时,展示了空间权重在边界检测等实际场景的应用,如分析相邻区域的收入差异以识别潜在边界。 (二)空间数据分析 该部分围绕探索性空间数据分析(ESDA)展开,帮助读者识别地理数据中的空间模式。 分级设色地图:作为地理数据可视化的核心工具,分级设色地图通过颜色编码展示区域数据。书中详细介绍了数据分类方法,如等间隔分类(按值范围等距划分)、分位数分类(使每类包含大致相等数量观测)、均值 - 标准差分类(基于均值与标准差划分)等,并对比不同方法的适用场景,还讲解了颜色选择原则,根据数据类型(顺序型、发散型、定性型)匹配对应的颜色方案,同时提供了自定义分类与多图统一分类的实现方法。 全局空间自相关:用于衡量整体空间模式,即观测值的相似性与空间位置相似性的关联。书中以英国脱欧公投数据为例,介绍了空间滞后的计算(反映观测单元周边的平均情况),以及全局空间自相关的统计量,如二元数据的连接计数统计(分析同类或异类相邻对数量)、连续数据的莫兰指数(通过莫兰散点图直观展示,指数值对应散点图拟合线斜率)、盖瑞系数、Getis-Ord G 统计量等,并通过模拟随机分布数据,计算伪 p 值以检验统计显著性。 局部空间自相关:聚焦单个观测单元与其周边的关联,弥补全局统计量无法定位局部异常的不足。以局部莫兰指数(LISA)为核心,通过莫兰散点图的四个象限(高 - 高、低 - 高、低 - 低、高 - 低)分类观测单元,结合统计显著性识别空间聚类(如高值聚类、低值聚类)与异常值。此外,还介绍了 Getis-Ord 局部统计量,以及将局部统计方法应用于表面数据的思路,拓展了方法的适用范围。 点模式分析:针对点事件的空间分布,介绍了多种可视化与分析方法。可视化方面,通过散点图结合底图展示点分布,利用六边形分箱或核密度估计解决点过密问题;中心性分析包括计算均值中心、中位数中心衡量集中趋势,标准距离、标准偏差椭圆衡量分散程度,以及多种边界形状(如凸包、阿尔法形状)描述点模式范围;聚类分析通过模拟随机点模式,结合象限统计(检验点在网格中的分布均匀性)、Ripley 函数(分析不同距离下的点分布特征)判断点模式是否聚类,还介绍了 DBSCAN 算法用于识别具体聚类位置。 (三)高级主题 此部分将前面的基础理论与方法应用于实际场景,展示地理数据科学的高级应用。 空间不平等动态:以美国县域人均收入数据为例,探讨不平等的空间维度。先介绍传统不平等测度(如 20:20 比率、基尼系数、泰尔指数)及其时间演变,再引入空间视角,通过全局空间自相关分析收入分布的地理聚集性,利用泰尔指数的区域分解区分区域间与区域内不平等,还提出空间化基尼系数,通过分解相邻与非相邻观测对的差异,量化空间邻近对不平等的贡献。 聚类与区域化:将无监督学习与地理结合,介绍地理单元的聚类与区域化方法。聚类方面,对比 k 均值聚类(非空间)与层次聚类,分析聚类结果的空间分布与统计特征;区域化则是考虑空间连续性的聚类,通过约束相邻单元归为同一区域,平衡地理连贯性与特征拟合度,还探讨了不同空间约束与解决方案相似性的影响。 空间回归:将空间因素融入回归分析,解决传统回归忽略空间效应的问题。介绍了空间特征工程(如构建邻近变量)、空间异质性处理(如空间固定效应、空间制度)、空间依赖性处理(如空间滞后模型、空间误差模型)等方法,以圣地亚哥 Airbnb 数据为例,展示如何通过空间回归改进模型预测效果。 空间特征工程:聚焦如何利用地理特性构建更优特征以提升模型性能。介绍了基于邻近性的特征(如计数周边兴趣点)、基于插值的特征(如将点数据插值到网格)、基于地图合成的特征(如计算缓冲区内的统计量)、基于聚类的特征(如识别 Airbnb 聚类用于价格预测)等构建方法,为后续建模提供高质量输入特征。 三、书籍特色与价值 理论与实践结合:既系统阐述地理数据科学的理论基础,如地理思维、空间数据模型等,又提供丰富的 Python 代码示例,读者可直接复现、改编代码,将理论知识应用于实际问题。 开源与可复现:基于 Python 开源生态,推荐使用开源工具与平台,确保分析流程的开放性;同时强调容器化等可复现技术,降低代码在不同环境下的运行障碍,符合科学研究的可复现原则。 兼顾多学科视角:融合地理学、数据科学、统计学等多学科知识,既满足地理学者对数据科学方法的需求,也帮助数据科学家理解地理数据的特殊性,促进跨领域协作。 实用性强:内容涵盖从基础工具使用到高级应用开发的全流程,案例均来自实际场景(如脱欧公投、Airbnb 定价),读者可将所学直接应用于实际工作与研究,解决真实地理数据问题。