Writing in progress.

寻找可扩展的 Q-Learning

长期以来，我一直在寻找能够扩展强化学习（Reinforcement Learning）的方法。其中一个很有意思的项目是 starcraft.ai。我很幸运参加过 DeepMind 举办的一次研讨会，并见到了真正构建该环境的人们 (Vinyals et al., 2017) 。这个环境面临的挑战包括：

部分可观测性（Partial observability）
多智能体交互（Multi-agent interaction）
巨大的动作空间（Large action space）
由原始特征图（raw input feature maps）构成的巨大状态空间
需要跨越数千步进行长期规划的延迟奖励分配（Delayed credit assignment）

Q-Learning 尚未具备良好的可扩展性

我的朋友 SeoHong 也在他的论文中讨论了这个问题：

当前的离线强化学习算法，仅通过扩大数据规模和计算资源，究竟能够在多大程度上解决复杂任务？
SeoHong Park, (Park et al., 2025)

他的观点是：Q-learning 并不能自然地扩展到复杂的长时程（long-horizon）问题。其核心分析如下：

\[\mathbb{E}_{(s,a,r,s')\sim\mathcal{D}} \bigg[ \Big( Q_\theta (s,a) - \underbrace{\big(r + \gamma \max_{a'} Q_{\bar\theta}(s',a') \big)}_{ {\color{royalblue}{\tt Biased }}\ (i.e., \not = Q^\ast(s,a))} \Big)^2\bigg]\]

Q-learning 难以扩展的原因在于：预测目标本身带有偏差（bias），而这些偏差会随着决策时程（horizon）的增长不断累积。

这种 偏差累积（bias accumulation） 是 Q-learning（TD learning）所特有的一种根本性局限。

此前已有研究表明，通过使用更大的模型和更多的数据，当前 RL 方法能够扩展到更多的任务（但未必是更困难的任务） (Kumar et al., 2023) , (Springenberg et al., 2024) 。

此外，SeoHong 还尝试识别离线强化学习中的关键瓶颈。

离线强化学习中的主要 瓶颈（bottleneck） 不是价值函数学习（value learning），而是策略学习（policy learning）。

TL;DR

(1) 策略提取（policy extraction）往往比价值函数学习更重要：不要使用 Weighted Behavior Cloning（AWR）；始终使用 Behavior-Constrained Policy Gradient（DDPG+BC）。
(2) 测试阶段的策略泛化能力（test-time policy generalization）是离线强化学习最重要的瓶颈之一：当前的离线 RL 往往已经能够在数据集中的状态上学到有效策略，而最终性能通常取决于其在分布外（out-of-distribution）状态上的表现。

未来方向

我目前非常关注那些能够彻底绕开 TD learning 的方法。

基于强化学习线性规划（LP）形式化的 Quasimetric RL
类似 Contrastive RL 的 Monte Carlo 方法

/\_/\
( o.o )
> ^ <
思考中……
猫咪

References

Vinyals, O., Ewalds, T., Bartunov, S., Georgiev, P., Vezhnevets, A. S., Yeo, M., Makhzani, A., Küttler, H., Agapiou, J. P., Schrittwieser, J., Quan, J., Gaffney, S., Petersen, S., Simonyan, K., Schaul, T., van Hasselt, H., Silver, D., Lillicrap, T. P., Calderone, K., … Tsing, R. (2017). StarCraft II: A New Challenge for Reinforcement Learning. CoRR, abs/1708.04782. http://arxiv.org/abs/1708.04782
Park, S., Frans, K., Mann, D., Eysenbach, B., Kumar, A., & Levine, S. (2025). Horizon Reduction Makes RL Scalable. https://arxiv.org/abs/2506.04168
Kumar, A., Agarwal, R., Geng, X., Tucker, G., & Levine, S. (2023). Offline Q-Learning on Diverse Multi-Task Data Both Scales And Generalizes. https://arxiv.org/abs/2211.15144
Springenberg, J. T., Abdolmaleki, A., Zhang, J., Groth, O., Bloesch, M., Lampe, T., Brakel, P., Bechtle, S., Kapturowski, S., Hafner, R., Heess, N., & Riedmiller, M. A. (2024). Offline Actor-Critic Reinforcement Learning Scales to Large Models. Forty-First International Conference on Machine Learning, ICML 2024, Vienna, Austria, July 21-27, 2024. https://openreview.net/forum?id=tl2qmO5kpD

寻找可扩展的 Q-Learning

Reaction to Seohong's Post on X

寻找可扩展的 Q-Learning

Q-Learning 尚未具备良好的可扩展性

未来方向

References

相关文章

The Thinking Machine - 黄仁勋

Transformer 中最重要的组成部分

Humanoids 2025：人形机器人研究前沿观察