
资源介绍
基于优质数据设计和部署高质量模型的终极指南
加入数据中心革命,利用 Python 掌握塑造人工智能和机器学习发展未来的概念、技术和算法
核心特点
掌握数据中心性原则并将其应用于实际场景
通过 Python 获得高质量数据收集、标注和合成数据创建的经验
培养构建可靠、负责任且符合伦理的机器学习解决方案的必备技能
内容简介
在这个数据驱动的快速发展世界中,数据质量对机器学习和人工智能项目的成功至关重要。这本适时的指南罕见地提供了数据中心机器学习(DCML)的端到端概述,以及用于生成更深入、更准确数据集的技术和非技术方法的实践应用。
本书将帮助你理解什么是数据中心机器学习 / 人工智能,以及它如何帮助你发挥 “小数据” 的潜力。深入研究数据中心机器学习 / 人工智能的构建模块,你将探索数据标注的人为因素,解决标注中的模糊性,并理解合成数据的作用。从改进数据收集的策略到优化和扩充数据集的技术,你将学习提升数据中心实践所需的一切知识。通过应用示例和克服挑战的见解,你将获得在 Python 中不同应用场景下实施数据中心机器学习 / 人工智能的路线图。
读完本书后,你将对数据中心机器学习 / 人工智能有深刻的理解,并能熟练地将常见的数据中心方法无缝集成到模型开发生命周期中,通过优先考虑数据质量和可靠性,释放机器学习项目的全部潜力。
你将学到什么
理解输入数据质量与模型选择和调优相比的影响
认识到领域专家在有效模型开发中的关键作用
实施数据清理、标注和扩充的最佳实践
探索常见的合成数据生成技术及其应用
使用常见的 Python 包应用合成数据生成技术
使用最佳实践技术检测和减轻数据集中的偏差
理解机器学习 / 人工智能中可靠性、责任性和伦理考虑的重要性
本书适用人群
本书面向数据科学专业人士和机器学习爱好者,他们希望理解数据中心性的概念、其相对于模型中心方法的优势,以及在工作中实际应用最佳实践的数据中心方法。本书也适合其他数据专业人士和高级领导者,他们希望探索提高数据质量的工具和技术,并为组织中的小数据机器学习 / 人工智能创造机会。
目录
探索数据中心机器学习
从模型中心到数据中心 —— 机器学习的演变
数据中心机器学习的原则
数据标注是一个协作过程
数据清理技术
机器学习中的程序化标注技术
在数据中心机器学习中使用合成数据
识别和消除偏差的技术
处理机器学习中的边缘情况和罕见事件
开启你的数据中心机器学习之旅
Data-Centric Machine Learning with Python