
资源介绍
通过主动学习优化数据,提升质量而非追求数量
使用 Python 进行主动机器学习,提高预测模型的准确性,简化数据分析流程,适应不断变化的数据趋势,在多个领域推动创新与进步
核心特点
学习如何实现一个从大型数据集中以更低成本优化模型创建的管道
在获得更高效率和速度的同时,深入挖掘数据中的见解
将知识应用于现实世界的用例,解决复杂的机器学习问题
内容简介
构建准确的机器学习模型需要高质量的数据 —— 而且是大量的数据。然而,对于大多数团队来说,收集海量数据集既耗时、昂贵,又几乎不可能实现。在资深机器学习工程师、外科数据科学和气候人工智能发展的倡导者玛尔戈・马森 - 福赛思的带领下,这本关于主动机器学习的实践指南将展示如何使用 Python 强大的主动学习工具,仅用少量数据就能训练出稳健的模型。
你将掌握主动学习的基本技术,如成员查询合成、基于流的采样和基于池的采样,并获得设计和实现带有查询策略和 “人在回路”(Human-in-the-Loop)框架的主动学习算法的见解。通过探索各种主动机器学习技术,你将学习如何提升计算机视觉模型的性能,如图像分类、目标检测和语义分割,并深入研究一种用于从大型视频中选择最具信息量的帧进行标记的主动机器学习方法,以解决数据重复问题。你还将通过性能评估来衡量主动机器学习系统的有效性和效率。
读完本书后,你将能够利用 Python 库、框架和常用工具来增强你的主动学习项目。
你将学到什么
掌握主动机器学习的基础知识
理解用于以最少数据实现最佳模型训练的查询策略
解决类别不平衡、概念漂移和其他数据挑战
评估和分析主动学习模型的性能
将主动学习库有效集成到工作流中
优化面向人工标记员的工作流
探索当今最优秀的主动学习工具
本书适用人群
本书非常适合希望在最大限度减少昂贵数据标记工作的同时提高模型性能的数据科学家和机器学习工程师。无论你是技术从业者还是团队负责人,都能从书中介绍的成熟方法中受益,这些方法可以减少数据需求并加快迭代速度。
你只需具备基本的 Python 能力以及对机器学习概念(如数据集和卷积神经网络)的熟悉度,即可开始学习本书。
目录
主动机器学习简介
设计查询策略框架
管理 “人在回路”
将主动学习应用于计算机视觉
利用主动学习处理大数据
评估和提高效率
使用主动学习工具和包