



资源介绍
这本书是一部聚焦于机器学习系统可靠性问题的学术专著,由来自中国电子科技大学、西班牙马德里理工大学、天津大学以及美国东北大学四位学者共同编辑,于2026年由Springer出版。提起机器学习,大多数人首先想到的是越来越强大的模型本身——从2012年AlexNet横空出世带来的深度学习浪潮,到2017年Transformer架构开启大规模模型时代,再到2023年ChatGPT引爆的大语言模型热潮,算法的进步确实令人目不暇接。但这本书的切入点颇为独特:它关注的不是模型能做什么,而是当这些模型真正部署到自动驾驶、无人机、卫星等安全关键或任务关键场景中时,底层硬件能否稳定可靠地支撑它们的运行。书中将机器学习系统的可靠性问题归纳为两大类,一类是对内部硬件故障的抵抗能力,比如辐射效应、电压降额、老化退化以及永久性故障可能带来的计算错误,另一类则是面对恶意攻击的防御能力,包括对抗样本、数据投毒、硬件木马植入以及隐私泄露等威胁。作者明确指出,构建一个真正可信赖的机器学习系统,绝不是单纯追求模型更强大或者防护更厚实就能实现的,而必须是与具体应用约束紧密对齐的软硬件协同设计。为了让讨论落到具体技术层面,书中详细分析了当前主流的机器学习硬件平台,包括擅长并行计算的GPU、以低精度整数运算加速张量处理单元(TPU)为代表的专用集成电路(ASIC)、通过将计算能力嵌入存储单元来减少数据搬移的存算一体(CIM)器件,以及凭借高度可配置性在加速深度神经网络方面表现突出的现场可编程门阵列(FPGA),并分别阐述了不同平台上故障的表现形式与影响机制。对于从事机器学习系统设计、芯片开发、嵌入式计算或者安全关键领域工程实践的研究者和工程师而言,这本书提供了一个从硬件视角审视模型可靠性的系统框架,书中既有对故障建模与错误容忍方法的理论梳理,也有针对配置位翻转、参数损坏等具体问题的应对策略,是连接算法研究与硬件实现之间的一座实用桥梁。对于关注人工智能系统安全与可靠性的研究生和科研人员来说,书中对辐射效应、电压调节、存算一体架构下故障传播等前沿议题的讨论同样具有很高的参考价值,能够帮助读者建立从算法到硬件再到系统完整链条的全局认知。