Writing in progress.
寻找可扩展的 Q-Learning
长期以来,我一直在寻找能够扩展强化学习(Reinforcement Learning)的方法。其中一个很有意思的项目是 starcraft.ai。我很幸运参加过 DeepMind 举办的一次研讨会,并见到了真正构建该环境的人们 (Vinyals et al., 2017) 。这个环境面临的挑战包括:
部分可观测性(Partial observability)
多智能体交互(Multi-agent interaction)
巨大的动作空间(Large action space)
由原始特征图(raw input feature maps)构成的巨大状态空间
需要跨越数千步进行长期规划的延迟奖励分配(Delayed credit assignment)
Q-Learning 尚未具备良好的可扩展性
我的朋友 SeoHong 也在他的论文中讨论了这个问题:
当前的离线强化学习算法,仅通过扩大数据规模和计算资源,究竟能够在多大程度上解决复杂任务?
SeoHong Park, (Park et al., 2025)
他的观点是:Q-learning 并不能自然地扩展到复杂的长时程(long-horizon)问题。其核心分析如下:
\[\mathbb{E}_{(s,a,r,s')\sim\mathcal{D}} \bigg[ \Big( Q_\theta (s,a) - \underbrace{\big(r + \gamma \max_{a'} Q_{\bar\theta}(s',a') \big)}_{ {\color{royalblue}{\tt Biased }}\ (i.e., \not = Q^\ast(s,a))} \Big)^2\bigg]\]Q-learning 难以扩展的原因在于:预测目标本身带有偏差(bias),而这些偏差会随着决策时程(horizon)的增长不断累积。
这种 偏差累积(bias accumulation) 是 Q-learning(TD learning)所特有的一种根本性局限。
此前已有研究表明,通过使用更大的模型和更多的数据,当前 RL 方法能够扩展到 更多 的任务(但未必是更困难的任务) (Kumar et al., 2023) , (Springenberg et al., 2024) 。
此外,SeoHong 还尝试识别离线强化学习中的关键瓶颈。
离线强化学习中的主要 瓶颈(bottleneck) 不是价值函数学习(value learning),而是策略学习(policy learning)。
TL;DR
(1) 策略提取(policy extraction)往往比价值函数学习更重要:不要使用 Weighted Behavior Cloning(AWR);始终使用 Behavior-Constrained Policy Gradient(DDPG+BC)。
(2) 测试阶段的策略泛化能力(test-time policy generalization)是离线强化学习最重要的瓶颈之一:当前的离线 RL 往往已经能够在数据集中的状态上学到有效策略,而最终性能通常取决于其在分布外(out-of-distribution)状态上的表现。
未来方向
我目前非常关注那些能够彻底绕开 TD learning 的方法。
- 基于强化学习线性规划(LP)形式化的 Quasimetric RL
- 类似 Contrastive RL 的 Monte Carlo 方法
/\_/\
( o.o )
> ^ <
思考中……猫咪
References
- Vinyals, O., Ewalds, T., Bartunov, S., Georgiev, P., Vezhnevets, A. S., Yeo, M., Makhzani, A., Küttler, H., Agapiou, J. P., Schrittwieser, J., Quan, J., Gaffney, S., Petersen, S., Simonyan, K., Schaul, T., van Hasselt, H., Silver, D., Lillicrap, T. P., Calderone, K., … Tsing, R. (2017). StarCraft II: A New Challenge for Reinforcement Learning. CoRR, abs/1708.04782. http://arxiv.org/abs/1708.04782
- Park, S., Frans, K., Mann, D., Eysenbach, B., Kumar, A., & Levine, S. (2025). Horizon Reduction Makes RL Scalable. https://arxiv.org/abs/2506.04168
- Kumar, A., Agarwal, R., Geng, X., Tucker, G., & Levine, S. (2023). Offline Q-Learning on Diverse Multi-Task Data Both Scales And Generalizes. https://arxiv.org/abs/2211.15144
- Springenberg, J. T., Abdolmaleki, A., Zhang, J., Groth, O., Bloesch, M., Lampe, T., Brakel, P., Bechtle, S., Kapturowski, S., Hafner, R., Heess, N., & Riedmiller, M. A. (2024). Offline Actor-Critic Reinforcement Learning Scales to Large Models. Forty-First International Conference on Machine Learning, ICML 2024, Vienna, Austria, July 21-27, 2024. https://openreview.net/forum?id=tl2qmO5kpD
