적는중...
확장 가능한 Q-Learning을 찾아서
나는 오랫동안 강화학습(Reinforcement Learning)을 확장할 수 있는 방법을 찾아왔다. 그중 흥미로운 프로젝트 중 하나가 starcraft.ai 프로젝트이다. 운 좋게도 DeepMind가 진행한 워크숍에 참석할 기회가 있었고, 실제로 환경을 구축한 사람들을 만날 수 있었다 (Vinyals et al., 2017) . 이 환경의 주요 과제는 다음과 같다.
부분 관측성 (Partial observability)
다중 에이전트 상호작용 (Multi-agent interaction)
거대한 행동 공간 (Large action space)
원시 입력 특징 맵(raw input feature maps)으로부터 발생하는 거대한 상태 공간
수천 단계에 걸친 장기 전략을 요구하는 지연된 보상 할당(Delayed credit assignment)
Q-Learning은 아직 확장 가능하지 않다
내 친구 서홍(SeoHong) 역시 이 문제를 자신의 논문에서 다루고 있다.
현재의 오프라인 RL 알고리즘은 데이터와 계산량을 단순히 늘리는 것만으로 복잡한 과제를 어느 정도까지 해결할 수 있을까?
서홍 박, (Park et al., 2025)
그의 주장은 Q-learning이 복잡하고 긴 수평선(long-horizon)을 가진 문제에 쉽게 확장되지 않는다는 것이다. 그가 제시하는 핵심 식은 다음과 같다.
\[\mathbb{E}_{(s,a,r,s')\sim\mathcal{D}} \bigg[ \Big( Q_\theta (s,a) - \underbrace{\big(r + \gamma \max_{a'} Q_{\bar\theta}(s',a') \big)}_{ {\color{royalblue}{\tt Biased }}\ (i.e., \not = Q^\ast(s,a))} \Big)^2\bigg]\]Q-learning이 확장되기 어려운 이유는 예측 타깃 자체에 편향(bias)이 존재하며, 이러한 편향이 수평선(horizon)을 따라 누적되기 때문이다. 이러한 편향의 누적(bias accumulation) 은 Q-learning(TD learning)에만 존재하는 근본적인 한계라고 할 수 있다.
기존 연구들은 더 큰 모델과 더 많은 데이터를 사용하면 현재의 RL 방법들이 더 많은 과제를 해결할 수 있음을 보여주었다(반드시 더 어려운 과제라는 뜻은 아니다) (Kumar et al., 2023) , (Springenberg et al., 2024) .
또한 서홍은 오프라인 강화학습의 병목 지점을 분석하려고 시도했다.
오프라인 RL의 주요 병목(bottleneck) 은 가치 함수 학습(value learning)이 아니라 정책 학습(policy learning)이다.
TL;DR
(1) 정책 추출(policy extraction)은 가치 함수 학습보다 더 중요할 때가 많다: Weighted Behavior Cloning(AWR)을 사용하지 말고, 항상 Behavior-Constrained Policy Gradient(DDPG+BC)를 사용하라.
(2) 테스트 시점의 정책 일반화(test-time policy generalization)는 오프라인 RL의 가장 중요한 병목 중 하나이다: 현재의 오프라인 RL은 데이터셋에 포함된 상태들에서는 이미 충분히 효과적인 정책을 학습하는 경우가 많으며, 최종 성능은 종종 분포 밖(out-of-distribution) 상태에서의 성능에 의해 결정된다.
방향성
개인적으로는 TD learning 자체를 완전히 피할 수 있는 방법들에 관심이 간다.
- RL의 선형계획법(LP) 정식화에 기반한 Quasimetric RL
- Contrastive RL과 같은 Monte Carlo 기반 방법들
/\_/\
( o.o )
> ^ <
생각 중…고양이
References
- Vinyals, O., Ewalds, T., Bartunov, S., Georgiev, P., Vezhnevets, A. S., Yeo, M., Makhzani, A., Küttler, H., Agapiou, J. P., Schrittwieser, J., Quan, J., Gaffney, S., Petersen, S., Simonyan, K., Schaul, T., van Hasselt, H., Silver, D., Lillicrap, T. P., Calderone, K., … Tsing, R. (2017). StarCraft II: A New Challenge for Reinforcement Learning. CoRR, abs/1708.04782. http://arxiv.org/abs/1708.04782
- Park, S., Frans, K., Mann, D., Eysenbach, B., Kumar, A., & Levine, S. (2025). Horizon Reduction Makes RL Scalable. https://arxiv.org/abs/2506.04168
- Kumar, A., Agarwal, R., Geng, X., Tucker, G., & Levine, S. (2023). Offline Q-Learning on Diverse Multi-Task Data Both Scales And Generalizes. https://arxiv.org/abs/2211.15144
- Springenberg, J. T., Abdolmaleki, A., Zhang, J., Groth, O., Bloesch, M., Lampe, T., Brakel, P., Bechtle, S., Kapturowski, S., Hafner, R., Heess, N., & Riedmiller, M. A. (2024). Offline Actor-Critic Reinforcement Learning Scales to Large Models. Forty-First International Conference on Machine Learning, ICML 2024, Vienna, Austria, July 21-27, 2024. https://openreview.net/forum?id=tl2qmO5kpD
