近日,Google DeepMind发布最新研究成果,提出一种名为AlphaEvolve的方法,用大语言模型驱动的进化式搜索框架,自动发现新的多智能体强化学习算法。这项工作已经以论文形式发布,题为《Discovering Multiagent Learning Algorithms with Large Language Models》。
多智能体强化学习主要研究多个智能体在同一环境中博弈与协作的问题,广泛应用于、自动对弈系统以及复杂策略优化场景。长期以来,这一领域的重要算法框架,如反事实遗憾最小化(CFR)和策略响应预言机(PSRO),虽然理论基础扎实,但具体变体的设计往往依赖研究者不断试验、调参和经验判断。
Google DeepMind此次提出的AlphaEvolve,则尝试改变这一传统路径。研究团队将大语言模型用于生成和修改算法代码,通过自动化演化过程,在大规模搜索空间中探索可能的算法结构。系统不再仅仅优化参数,而是直接对算法逻辑本身进行改写和组合,从而产生新的训练规则和更新机制。

在论文中,研究团队报告了两个主要成果。
其一是提出了一种名为VAD-CFR的新型遗憾最小化方法。该方法在传统CFR框架基础上,引入了与波动性相关的折扣机制、强调一致性的乐观更新方式,以及特定的策略累积调度方案。在多个测试环境中,VAD-CFR的表现优于当前常用的Discounted Predictive CFR+等基线算法。
其二是在PSRO框架下,演化出一种名为SHOR-PSRO的元求解器。该方法将乐观遗憾匹配与温度控制的平滑最优响应策略结合起来,并通过动态调整混合系数,实现从策略多样性探索到均衡收敛的平稳过渡。实验结果显示,SHOR-PSRO在收敛速度和稳定性方面优于传统静态元求解器。
研究团队在论文中指出,这些新算法中包含一些“非直观”的机制组合,也就是说,它们并非研究者凭借经验自然会想到的结构,但在实证测试中表现良好。这意味着,AI系统不仅可以辅助调参,还可以参与到算法结构设计本身。

这项工作的意义在于,算法设计这一长期以来被视为高度依赖人类创造力和理论直觉的领域,开始出现由AI系统自动生成有效方案的案例。过去,多智能体强化学习算法往往需要多年迭代改进,而现在,大语言模型驱动的演化系统能够在较短时间内探索大量可能路径,并筛选出具有竞争力的方案。
从更广的视角看,这种“用AI设计训练AI的算法”的模式,可能会在强化学习、博弈论优化乃至更一般的机器学习框架中产生影响。如果类似方法在更多任务上被验证有效,未来算法创新的方式可能会逐步发生变化。
目前,这项研究仍处于学术验证阶段,相关算法的实际应用效果还有待更多场景测试。但可以确定的是,AI正在从“执行既定算法”走向“参与算法创造”,这为人工智能研究带来了新的方向。