学术报告:Bandit Learning with Swap Regret for Game Equilibrium

发布人:张艺凡发布时间:2025-04-29动态浏览次数:10

报告题目:针对博弈均衡计算的多臂老虎机学习算法及Swap Regret


时间:2025.4.30 上午10:00

地点:无线谷A6202会议室


摘要:博弈均衡计算是博弈论和多智能体系统中的核心问题,但寻找纳什均衡或相关均街的复众度通常随博弈规模呈指数级增长。去合学习算法的发展使得智能体能够通过重复交互学习均衡策略,而无需完全掌握博齐结构。这类方法具有显苦吸引力,因其扩展性与博弈规模无关,甚至适用于未知博弈。

bandit feedback 下的去粞台学习中,关键的难点在于控制 swap regret--这是一种能保证收敛到相关均衡的严格 Regret 形式。现有研究主要关注 Pseudo-Regret 界限,但实际应用往往需要 high-probability regret 界限。本研究首次提出了 bandit feedback 设定下 swap regret 的高假率界限。更重要的是,我们发现当多个智能体采用optimistic bandit算法时,均衡收敛速度可显著提升。


个人简介:黄之鸣,现为加拿大维多利亚大学(University of Victoria)计算机科学系博士研究生,师从Jianping Pan教授。他于2020年获得该校计算机科学硕士学位,2018年本科毕业于中国西北工业大学通信工程专业。他的研究方向聚焦于在线学习(Bandit算法)、博弈论及其在网络系统中的应用,相关成果多次发表在IEEE INFOCOM、IEEE ICDCS, UAI等顶级国际会议以及ACM/IEEE Transactions on Networking等顶级期刊上,并曾荣获IEEE ICDCS Best Poster Award等学术奖项。凭借突出的科研表现,他先后获得加拿大自然科学与工程研究委员会(NSERC)博士后奖学金和不列颠哥伦比亚省研究生奖学金(BC Graduate Fellowship)的资助。