스케일 가능한 Q-Learning
Seiok 🤸‍♂ Kim
취소

스케일 가능한 Q-Learning

Reaction to Seohong's Post on X

적는중...

확장 가능한 Q-Learning을 찾아서

나는 오랫동안 강화학습(Reinforcement Learning)을 확장할 수 있는 방법을 찾아왔다. 그중 흥미로운 프로젝트 중 하나가 starcraft.ai 프로젝트이다. 운 좋게도 DeepMind가 진행한 워크숍에 참석할 기회가 있었고, 실제로 환경을 구축한 사람들을 만날 수 있었다 (Vinyals et al., 2017) . 이 환경의 주요 과제는 다음과 같다.

  • 부분 관측성 (Partial observability)

  • 다중 에이전트 상호작용 (Multi-agent interaction)

  • 거대한 행동 공간 (Large action space)

  • 원시 입력 특징 맵(raw input feature maps)으로부터 발생하는 거대한 상태 공간

  • 수천 단계에 걸친 장기 전략을 요구하는 지연된 보상 할당(Delayed credit assignment)

Q-Learning은 아직 확장 가능하지 않다

내 친구 서홍(SeoHong) 역시 이 문제를 자신의 논문에서 다루고 있다.

현재의 오프라인 RL 알고리즘은 데이터와 계산량을 단순히 늘리는 것만으로 복잡한 과제를 어느 정도까지 해결할 수 있을까?

서홍 박, (Park et al., 2025)

그의 주장은 Q-learning이 복잡하고 긴 수평선(long-horizon)을 가진 문제에 쉽게 확장되지 않는다는 것이다. 그가 제시하는 핵심 식은 다음과 같다.

\[\mathbb{E}_{(s,a,r,s')\sim\mathcal{D}} \bigg[ \Big( Q_\theta (s,a) - \underbrace{\big(r + \gamma \max_{a'} Q_{\bar\theta}(s',a') \big)}_{ {\color{royalblue}{\tt Biased }}\ (i.e., \not = Q^\ast(s,a))} \Big)^2\bigg]\]

Q-learning이 확장되기 어려운 이유는 예측 타깃 자체에 편향(bias)이 존재하며, 이러한 편향이 수평선(horizon)을 따라 누적되기 때문이다. 이러한 편향의 누적(bias accumulation) 은 Q-learning(TD learning)에만 존재하는 근본적인 한계라고 할 수 있다.

기존 연구들은 더 큰 모델과 더 많은 데이터를 사용하면 현재의 RL 방법들이 더 많은 과제를 해결할 수 있음을 보여주었다(반드시 더 어려운 과제라는 뜻은 아니다) (Kumar et al., 2023) , (Springenberg et al., 2024) .

또한 서홍은 오프라인 강화학습의 병목 지점을 분석하려고 시도했다.

오프라인 RL의 주요 병목(bottleneck) 은 가치 함수 학습(value learning)이 아니라 정책 학습(policy learning)이다.

TL;DR

(1) 정책 추출(policy extraction)은 가치 함수 학습보다 더 중요할 때가 많다: Weighted Behavior Cloning(AWR)을 사용하지 말고, 항상 Behavior-Constrained Policy Gradient(DDPG+BC)를 사용하라.
(2) 테스트 시점의 정책 일반화(test-time policy generalization)는 오프라인 RL의 가장 중요한 병목 중 하나이다: 현재의 오프라인 RL은 데이터셋에 포함된 상태들에서는 이미 충분히 효과적인 정책을 학습하는 경우가 많으며, 최종 성능은 종종 분포 밖(out-of-distribution) 상태에서의 성능에 의해 결정된다.

방향성

개인적으로는 TD learning 자체를 완전히 피할 수 있는 방법들에 관심이 간다.

  • RL의 선형계획법(LP) 정식화에 기반한 Quasimetric RL
  • Contrastive RL과 같은 Monte Carlo 기반 방법들

 /\_/\
( o.o )
 > ^ <
생각 중…

고양이

References

  1. Vinyals, O., Ewalds, T., Bartunov, S., Georgiev, P., Vezhnevets, A. S., Yeo, M., Makhzani, A., Küttler, H., Agapiou, J. P., Schrittwieser, J., Quan, J., Gaffney, S., Petersen, S., Simonyan, K., Schaul, T., van Hasselt, H., Silver, D., Lillicrap, T. P., Calderone, K., … Tsing, R. (2017). StarCraft II: A New Challenge for Reinforcement Learning. CoRR, abs/1708.04782. http://arxiv.org/abs/1708.04782
  2. Park, S., Frans, K., Mann, D., Eysenbach, B., Kumar, A., & Levine, S. (2025). Horizon Reduction Makes RL Scalable. https://arxiv.org/abs/2506.04168
  3. Kumar, A., Agarwal, R., Geng, X., Tucker, G., & Levine, S. (2023). Offline Q-Learning on Diverse Multi-Task Data Both Scales And Generalizes. https://arxiv.org/abs/2211.15144
  4. Springenberg, J. T., Abdolmaleki, A., Zhang, J., Groth, O., Bloesch, M., Lampe, T., Brakel, P., Bechtle, S., Kapturowski, S., Hafner, R., Heess, N., & Riedmiller, M. A. (2024). Offline Actor-Critic Reinforcement Learning Scales to Large Models. Forty-First International Conference on Machine Learning, ICML 2024, Vienna, Austria, July 21-27, 2024. https://openreview.net/forum?id=tl2qmO5kpD
이 기사는 저작권자의 CC BY 4.0 라이센스를 따릅니다.
바로가기

엔비디아 젠슨 황의 "생각하는 기계"

트랜스포머에서 가장 중요한 요소는?