
资源介绍
书)
电子书格式: epub, pdf
2025 年欧洲机器学习与数据库知识发现会议(ECML PKDD 2025)于 9 月 15 日至 19 日在葡萄牙波尔图成功举办。作为机器学习与数据挖掘领域的顶级国际会议,本次会议是该系列继 2005 年和 2015 年后第三次落户波尔图,彰显了这座城市在科学交流领域的持久吸引力。会议自 2001 年起每年举办,已成为欧洲该领域最具影响力的学术交流平台,旨在汇聚全球研究者与实践者,展示机器学习和数据库知识发现领域的最新进展,促进理论研究与实际应用的深度融合。
本次会议设置了五个核心赛道,分别为研究赛道、应用数据科学赛道、期刊赛道、Nectar 赛道和演示赛道,共收到来自全球的大量投稿。其中,研究赛道收到 924 份投稿,录取 226 篇,录取率 24.5%;应用数据科学赛道收到 299 份投稿,录取 74 篇,录取率 24.7%,充分体现了会议的学术严谨性和竞争激烈程度。会议论文集由施普林格出版社出版,收录了研究赛道和应用数据科学赛道的录取成果,涵盖时间序列分析、迁移与多任务学习、跨领域数据处理等多个前沿方向。
会议期间,7 位领域顶尖专家带来了主题演讲,聚焦负责任人工智能、因果推理、可解释 AI、大语言模型协作等关键议题,为领域发展提供了前瞻性指引。同时,会议通过多样性与包容性计划,为 10 名早期职业研究者提供了奖学金支持,助力来自发展中国家和少数群体的科研人员参与学术交流。
二、核心研究成果亮点
(一)时间序列分析技术突破
时间序列分析作为机器学习的重要应用场景,本次会议收录的成果在预测精度、数据补全和跨域适配等方面实现了显著突破。
在股票时间序列预测领域,研究者提出了层级信息引导的时空 Mamba 模型(HIGSTM)。该模型创新性地引入指数引导频率滤波分解技术,从时间序列中提取共性成分与特异性成分,通过节点独立 Mamba 模块、时序信息引导模块和全局信息引导模块的层级架构,同时捕捉股票间的动态关联与静态全局关系。在 CSI500、CSI800 和 CSI1000 数据集上的实验表明,该模型在信息系数(IC)、盈亏比(PNL)和夏普比率(SHARPE)等关键指标上均优于现有主流模型,平均 IC 提升 11%,夏普比率提升 10%,为股票投资决策提供了更可靠的技术支撑。
针对多元时间序列分类问题,研究团队系统评估了现有基础模型的性能局限,发现当前模型普遍存在通道依赖捕捉不足的问题。通过对令牌化、补丁化和形状化三类基础模型的对比分析,研究者提出应在模型架构中引入通道感知机制,强化跨通道关系建模。实验证明,在强通道依赖数据集上,改进后的模型分类精度显著提升,为工业监测、医疗数据处理等领域的时间序列分析提供了新思路。
跨域时间序列补全方面,基于条件扩散模型的 CD²-TSI 方法脱颖而出。该方法通过频率基插值策略融合源域与目标域的共享频谱成分,利用域共享表示学习与域特异性去噪网络捕捉复杂时间依赖,结合跨域一致性对齐策略平衡知识迁移与域特异性保留。在空气质量、水文和电力数据集上的实验表明,该方法在高缺失率和域转移场景下,补全精度优于传统方法,平均均方误差(MSE)降低 4% 以上,为传感器数据修复、环境监测等实际场景提供了有效解决方案。
(二)迁移与多任务学习创新
迁移与多任务学习领域的成果聚焦于参数高效优化与梯度冲突解决,为模型在多场景适配和复杂任务处理方面提供了新方法。
任务提示向量(TPV)技术的提出,为大语言模型的多任务适配提供了高效解决方案。该技术通过计算微调后软提示与初始权重的元素级差异构建任务提示向量,实现了提示的跨初始化迁移与算术组合。在 19 个自然语言理解和生成数据集上的实验表明,任务提示向量具有随机初始化独立性,其加法组合能够有效融合多任务知识,在零样本和少样本场景下的性能优于现有软提示迁移方法,且无需重复训练,显著降低了计算成本。
针对多任务深度学习中的梯度冲突问题,研究者提出了相似度感知动量梯度手术(SAM-GS)。该方法通过梯度幅度相似度度量检测梯度冲突,采用梯度均衡化和动量调制策略,在梯度差异较大时保守更新,在梯度相似时加速学习。在合成数据集和 CelebA、NYU-v2 等真实基准数据集上的实验证明,SAM-GS 在多任务协同优化中表现优异,尤其在多目标优化和强化学习任务中,收敛速度和最终性能均超过现有梯度手术方法,为计算机视觉、机器人操控等多任务场景提供了更稳定的优化方案。
(三)抽象视觉推理统一框架
抽象视觉推理(AVR)领域的研究打破了传统任务特异性模型的局限,提出了统一问题表示与求解框架。
现有抽象视觉推理任务(如瑞文渐进矩阵、视觉类比问题)通常采用分离式面板表示,导致模型难以跨任务通用。研究者提出将每个推理问题渲染为单张图像的统一表示方法,无需预先定义面板数量、位置和角色。基于该表示,设计了统一抽象视觉推理模型(UMAVR),通过卷积骨干网络提取局部特征,结合元 former 架构实现全局模式发现。在四个 AVR 数据集和一个真实世界视觉类比数据集上的实验表明,UMAVR 不仅在单任务学习中优于现有专用模型,还能通过迁移学习和课程学习实现跨任务知识复用,为通用智能推理系统的开发奠定了基础。
三、会议价值与应用前景
ECML PKDD 2025 收录的研究成果不仅推动了机器学习与数据挖掘领域的理论创新,还在多个实际场景中展现出广阔的应用前景。时间序列分析技术可直接应用于金融预测、环境监测、工业故障诊断等领域,帮助提升决策科学性和系统可靠性;迁移与多任务学习方法降低了模型适配多场景的成本,为智能客服、多模态理解等复杂应用提供了高效解决方案;抽象视觉推理的统一框架则为教育评估、智能诊断等需要高级认知能力的场景提供了技术支撑。
会议强调负责任人工智能的发展方向,将可解释性、公平性和透明度贯穿于各项研究中,为 AI 技术的可信应用提供了重要指引。同时,会议促进了全球科研人员的深度交流与合作,推动了不同地区、不同背景研究者的知识共享,为领域的持续健康发展注入了活力。
未来,这些研究成果将进一步推动机器学习技术在各行业的深度落地,同时也为后续研究指明了方向,如强化模型的跨域适配能力、提升复杂场景下的推理可靠性、完善负责任 AI 的技术体系等。Machine Learning and Knowledge Discovery in Databases