\[\renewcommand{\V}[1]{\mathbf{#1}}\]2022년에 꼭 봐야 할 논문 중 하나이다. 언젠가 나올것으로 예상된 방법이랄까... 여기서는 의사결정을 강화 학습(RL)이 아닌 조건부 생성 모델링으로 구성하였다. 개인적으로 로봇 시뮬레이션에서의 실험도 진행하므로 두 배로 관심이 있었다. 전통적인 RL 방법의 복잡성 문제를 해결할 수 있는지 궁금하다.
서론
Improbable AI Lab MIT에서 나온 놀라운 논문이 나왔다: (Ajay et al., 2022) .
의사결정을 강화 학습(RL) 문제가 아니라 조건부 생성 모델링 문제로 본다면:
- 조건부 생성 모델링은 오프라인 의사결정에서 효과적인 도구다.
- 동적 프로그래밍 대신 분류기 없는 안내와 저온 샘플링을 사용한다.
- 추론 중 제약 조건을 조합하고 기술을 유연하게 구성하기 위해 조건부 생성 모델링 프레임워크를 활용한다.
의사결정 확산기
결과 개요
제약 조건 만족시키기
스태킹 제약 조건 조합하기
재배열 제약 조건 조합하기
스태킹 및 재배열에서의 ‘금지’ 제약 조건
실행 불가능한 제약 조건은 일관성 없는 행동으로 이어진다
배경
확산 확률 모델
확산 모델 (Sohl-Dickstein et al., 2015) , (Ho et al., 2020) 은 데이터셋 \(\mathcal{D} := \{ \V x^i \}_{0 \leq i < M}\) 에서 데이터 분포 \(q(\V x)\)를 학습하는 특정 유형의 생성 모델이다. 이들은 주로 텍스트 설명에서 고품질 이미지를 합성하는 데 사용되었다. 여기서 데이터 생성 절차는 사전 정의된 전방 소음 과정 \(q(\V x_{k-1} \mid \V x_k) := \mathcal{N}(\V x_{k+1}; \sqrt{\alpha_k} \V x_k, (1-\alpha_k) \V I)\)과 훈련 가능한 역방향 과정 \(p_\theta(\V x_{k-1} \mid \V x_k) := \mathcal{N} (\V x_{k-1} \mid \mu_\theta (\V x_k, k), \Sigma_k)\)으로 모델링된다. 여기서 \(\mathcal{N}(\mu, \Sigma)\)는 평균 \(\mu\)와 분산 \(\Sigma\)를 가진 가우시안 분포를 나타내며, \(\alpha_k \in \mathbb{R}\)는 분산 일정을 결정하고, \(\V x_0 := \V x\)는 샘플이며, \(\V x_1, \V x_2, \ldots, \V x_{K-1}\)은 잠재 변수이고, \(\V x_K \sim \mathcal{N}(\V 0, \V I)\)는 충분히 긴 \(K\)와 신중하게 선택된 \(\alpha_k\)에 대해 설정된다. 가우시안 노이즈로 시작하여, 샘플은 일련의 “소음 제거” 단계를 통해 순차적으로 생성된다.
확산 모델을 훈련하기 위해 최적화할 수 있는 \(\log p_\theta\)의 실현 가능한 변분 하한이 있지만, (Ho et al., 2020) 은 단순화된 대체 손실을 제안한다:
\[\mathcal{L}_{\mathrm {denoise}}(\theta) := \mathbb{E}_{k \sim [1, K], \V x_0\sim q, \epsilon \sim \mathcal{N}(\V 0, \V I)}[\| \epsilon - \epsilon_0 (\V x_k, k)\|^2]\]예측된 노이즈 \(\epsilon_\theta(\V x_k, k)\)는 심층 신경망으로 매개변수화되어 데이터셋 샘플 \(\V x_0\)에 추가된 노이즈 \(\epsilon \sim \mathcal{N}(0, I)\)를 추정한다. 이는 \(\mu_\theta(\V x_k, k)\)가 \(\epsilon_\theta(\V x_k, k)\)의 함수로 계산될 수 있으므로 \(p_\theta(\V x_{k-1} \mid \V x_k)\)의 평균을 예측하는 것과 동일하다 (Ho et al., 2020) .
참조자료
- Ajay, A., Du, Y., Gupta, A., Tenenbaum, J., Jaakkola, T., & Agrawal, P. (2022). Is Conditional Generative Modeling all you need for Decision-Making? arXiv. doi: 10.48550/ARXIV.2211.15657 https://arxiv.org/abs/2211.15657
- Sohl-Dickstein, J., Weiss, E. A., Maheswaranathan, N., & Ganguli, S. (2015). Deep Unsupervised Learning using Nonequilibrium Thermodynamics. CoRR, abs/1503.03585. http://arxiv.org/abs/1503.03585
- Ho, J., Jain, A., & Abbeel, P. (2020). Denoising Diffusion Probabilistic Models. In H. Larochelle, M. Ranzato, R. Hadsell, M. F. Balcan, & H. Lin (Eds.), Advances in Neural Information Processing Systems (Vol. 33, pp. 6840–6851). Curran Associates, Inc. https://proceedings.neurips.cc/paper/2020/file/4c5bcfec8584af0d967f1ab10179ca4b-Paper.pdf