


资源介绍
数据科学:初学者实用指南(中文字幕英文视频教程)
本课程中文名称为《数据科学:初学者实用指南》,英文原名为《Data Science_A Practical Guide for Beginners》,是一门专为数据科学领域新手打造的入门级实战课程。课程包含两大核心模块,分别是 “1 - 入门介绍” 和 “2 - 数据科学中的数据规整与数据清洗”,整体课程视频总数为 20 个,每个视频均配备对应的中文字幕文件,方便初学者理解和学习,助力学习者轻松迈入数据科学的大门。
二、课程目标
本课程旨在帮助零基础或刚接触数据科学的学习者,系统掌握数据科学的基础理论知识与核心实战技能,建立完整的数据科学思维框架。通过课程学习,学习者能够了解数据科学的整体流程,熟练运用相关工具处理数据,解决实际场景中的数据问题,为后续深入学习数据科学相关进阶内容打下坚实基础,具备开展简单数据科学项目的能力。
三、课程适用人群
刚毕业或即将毕业,希望从事数据相关工作(如数据分析师、数据专员)的大学生;
职场中需要处理大量数据,想提升数据处理与分析能力,转型数据相关岗位的职场人士;
对数据科学感兴趣,渴望了解数据科学原理与应用,希望通过数据解决生活或工作中实际问题的爱好者;
相关专业(如计算机、数学、统计学、经济学等)的学生,需要补充数据科学实战知识,完善知识体系的学习者。
四、课程模块详细内容
(一)模块一:入门介绍(共 10 个视频)
本模块作为课程的基础入门部分,围绕数据科学的基础概念、核心工具及基础操作展开,帮助学习者初步认识数据科学领域,掌握数据处理的基础工具与方法,具体内容如下:
《数据科学入门》:视频从数据科学的定义入手,详细讲解数据科学的起源、发展历程以及在当今社会各领域(如金融、医疗、教育、电商等)的应用场景,让学习者对数据科学有整体的认知,明确数据科学在实际生活和工作中的价值,激发学习兴趣。同时,介绍数据科学领域的主要岗位及各岗位的职责要求,为学习者未来职业规划提供参考。
《数据的多个方面》:深入剖析数据的不同分类方式,如按照数据结构可分为结构化数据、半结构化数据和非结构化数据;按照数据来源可分为内部数据和外部数据等。针对不同类型的数据,讲解其特点、获取途径以及在处理过程中需要注意的事项,帮助学习者学会辨别不同类型的数据,为后续数据处理工作做好铺垫。
《数据科学流程》:系统阐述数据科学项目的完整流程,包括问题定义、数据收集、数据预处理、数据分析、模型构建、模型评估与部署等环节。通过实际案例(如电商平台用户购买行为分析项目),详细讲解每个环节的具体操作步骤、关键要点以及常见问题的解决方法,让学习者掌握数据科学项目的运作逻辑,能够按照标准流程开展简单的数据科学项目。
《NumPy 入门》:NumPy 是数据科学领域中常用的数值计算库,本视频首先介绍 NumPy 的基本概念、特点及优势,说明其在数据处理和数值计算中的重要性。接着,讲解 NumPy 库的安装方法,确保学习者能够在自己的电脑上成功安装并使用该库。然后,通过简单的代码示例,展示 NumPy 库的基本使用方法,如创建简单的数组、查看数组的基本信息等,帮助学习者快速上手 NumPy 库。
《数组的创建、属性与对象》:详细讲解 NumPy 数组的多种创建方式,包括从列表创建、从元组创建、使用 NumPy 内置函数创建(如 zeros ()、ones ()、arange () 等),并通过具体案例演示每种创建方式的操作步骤和适用场景。同时,介绍 NumPy 数组的常用属性(如 shape、dtype、size 等),让学习者学会查看和理解数组的基本信息。此外,还会讲解 NumPy 中的一些重要对象,如数组的维度对象等,帮助学习者深入了解 NumPy 数组的内部结构。
《数组的基本运算》:围绕 NumPy 数组的基本运算展开,包括算术运算(加、减、乘、除、取模、幂运算等)、比较运算(大于、小于、等于、不等于等)和逻辑运算(与、或、非等)。通过大量的代码示例,详细演示每种运算的操作方法和运算规则,说明运算过程中需要注意的细节(如数组形状匹配问题),让学习者能够熟练进行数组的基本运算,为后续复杂的数据处理和分析工作奠定基础。
《数组的连接、分割、查找与排序》:讲解 NumPy 数组的高级操作,包括数组的连接(concatenate ()、vstack ()、hstack () 等函数的使用)、分割(split ()、vsplit ()、hsplit () 等函数的使用)、查找(where () 函数的使用,用于查找满足特定条件的元素索引)和排序(sort () 函数的使用,包括对数组按行、按列排序等)。通过实际案例,展示这些操作在数据处理中的具体应用,如将多个分散的数据集合并为一个完整的数据集、将一个大型数据集分割为多个小数据集进行处理等,让学习者掌握数组的高级操作技巧,提升数据处理效率。
《数组的索引、切片与迭代》:详细介绍 NumPy 数组的索引和切片方法,包括整数索引、切片索引、布尔索引等,通过代码示例演示每种索引和切片方式的操作步骤和应用场景,帮助学习者学会快速获取数组中所需的数据。同时,讲解数组的迭代方法,包括对一维数组、二维数组及高维数组的迭代,介绍迭代过程中的优化技巧,让学习者能够高效地遍历数组中的元素,进行数据处理和分析。
《数组的复制与数组形状的操作》:讲解 NumPy 数组的复制方法,区分浅复制和深复制的概念及区别,说明在不同场景下应选择合适的复制方式,避免因数组复制问题导致数据错误。此外,还会介绍数组形状的操作方法,包括 reshape () 函数(改变数组的形状)、flatten () 函数(将多维数组转换为一维数组)、transpose () 函数(数组的转置)等,通过案例演示这些操作在数据处理中的实际应用,如将不符合分析要求的数组形状调整为合适的形状,方便后续的数据处理和模型构建。
《使用序列和数据框探索数据》:介绍数据科学中常用的数据结构 —— 序列(Series)和数据框(DataFrame),讲解它们的定义、特点及适用场景。详细演示如何创建序列和数据框,以及如何对它们进行基本的操作(如查看数据的基本信息、获取数据的描述性统计信息、选择数据中的特定列或行等)。通过实际数据集(如学生成绩数据集、商品销售数据集等),展示如何使用序列和数据框探索数据,发现数据中的基本规律和特征,为后续的数据分析和建模工作提供数据支持。
(二)模块二:数据科学中的数据规整与数据清洗(共 10 个视频)
在数据科学项目中,获取的数据往往存在各种问题,如数据量大、格式不规范、存在缺失值、异常值等,数据规整与数据清洗是数据处理过程中的关键环节。本模块围绕数据规整与数据清洗的核心技术展开,帮助学习者掌握处理实际数据问题的方法和技巧,具体内容如下:
《处理大量数据时面临的问题》:随着数据时代的发展,数据量呈爆炸式增长,处理大量数据时会面临诸多挑战。本视频详细分析处理海量数据时常见的问题,如数据存储压力大(需要选择合适的存储方式和工具,确保数据能够安全、高效地存储)、数据处理速度慢(海量数据会导致数据处理时间过长,影响项目进度)、数据质量差(大量数据中容易混入错误数据、重复数据等)、数据安全风险(海量数据中可能包含敏感信息,存在数据泄露的风险)等。针对这些问题,介绍相应的应对思路,为后续学习处理大量数据的技术和方法做好铺垫。同时,在数据安全方面,强调要建立完善的数据安全防护体系,如对敏感数据进行加密处理、设置严格的访问权限、定期进行数据备份等,提高数据安全防御能力,保障数据的安全性和完整性。
《处理大量数据的通用技术》:针对处理大量数据时面临的问题,本视频介绍多种实用的通用技术,帮助学习者高效处理海量数据。包括数据抽样技术(从海量数据中抽取部分具有代表性的数据进行分析,减少数据处理量,提高处理效率),详细讲解随机抽样、分层抽样等常见的抽样方法及适用场景;数据分块处理技术(将海量数据分割为多个小块,分批次进行处理,避免因数据量过大导致内存不足等问题),说明分块的原则和方法;并行计算技术(利用多个计算节点同时处理数据,提高数据处理速度),介绍并行计算的基本原理和常用工具;数据压缩技术(对数据进行压缩处理,减少数据存储占用空间,降低存储成本),讲解常见的数据压缩算法和工具的使用。通过实际案例,演示这些技术在处理大量数据中的具体应用,让学习者能够根据实际情况选择合适的技术处理海量数据。
《处理大量数据时的通用编程技巧》:在处理大量数据的编程过程中,掌握合适的编程技巧能够有效提高编程效率和数据处理速度。本视频从编程实践角度出发,介绍处理大量数据时的通用编程技巧。如合理选择数据结构(根据数据的特点和处理需求,选择合适的数据结构,如使用数组存储数值型数据、使用字典存储键值对数据等,提高数据访问和处理效率);优化循环结构(避免嵌套循环过深、减少循环内部的冗余操作,提高代码执行速度);使用向量化操作(利用 NumPy 等库的向量化运算功能,替代传统的循环操作,大幅提高数据处理速度);内存管理技巧(及时释放不需要的内存空间,避免内存泄漏,确保程序能够稳定运行)等。通过代码示例对比优化前后的效果,让学习者直观感受这些编程技巧的优势,学会在实际编程中运用这些技巧处理大量数据。
《数据规整》:数据规整是将原始数据转换为符合分析要求的格式和结构的过程,是数据处理的重要环节。本视频详细讲解数据规整的主要内容和方法,包括数据格式转换(如将文本格式的数据转换为数值格式、将日期格式的数据统一为标准格式等),介绍常见的数据格式及其转换工具和方法;数据合并(将来自不同来源、不同格式的多个数据集合并为一个完整的数据集),详细演示使用相关工具(如 Pandas 库)进行数据合并的操作步骤,包括内连接、外连接、左连接、右连接等不同的合并方式及适用场景;数据拆分(将一个包含多个信息的字段拆分为多个独立的字段,方便数据分析),讲解数据拆分的原则和方法。通过实际案例,展示数据规整的完整流程,让学习者掌握数据规整的核心技能,能够将杂乱的原始数据整理为规范、可用的分析数据。
《数据集的组合与合并》:深入探讨数据集组合与合并的高级技巧,在模块二第 4 点数据合并的基础上,进一步拓展和深化。介绍更复杂的数据集合并场景,如多表合并(涉及三个或三个以上数据集的合并)、条件合并(根据特定条件进行数据集合并)等,详细讲解处理这些复杂合并场景的方法和注意事项。同时,介绍数据集组合的其他方式,如数据追加(将一个数据集的记录追加到另一个数据集的末尾),说明数据追加的操作步骤和数据一致性要求(如字段数量和字段类型需匹配)。通过实际的复杂数据集案例,演示数据集组合与合并的操作过程,帮助学习者解决实际工作中遇到的复杂数据合并问题,提升数据整合能力。