조건부 생성 모델링만으로 의사결정이 가능할까?
포스트
취소

조건부 생성 모델링만으로 의사결정이 가능할까?

2022년에 꼭 봐야 할 논문 중 하나이다. 언젠가 나올것으로 예상된 방법이랄까... 여기서는 의사결정을 강화 학습(RL)이 아닌 조건부 생성 모델링으로 구성하였다. 개인적으로 로봇 시뮬레이션에서의 실험도 진행하므로 두 배로 관심이 있었다. 전통적인 RL 방법의 복잡성 문제를 해결할 수 있는지 궁금하다.

\[\renewcommand{\V}[1]{\mathbf{#1}}\]

서론

Improbable AI Lab MIT에서 나온 놀라운 논문이 나왔다: (Ajay et al., 2022) .

img

의사결정을 강화 학습(RL) 문제가 아니라 조건부 생성 모델링 문제로 본다면:

  1. 조건부 생성 모델링은 오프라인 의사결정에서 효과적인 도구다.
  2. 동적 프로그래밍 대신 분류기 없는 안내와 저온 샘플링을 사용한다.
  3. 추론 중 제약 조건을 조합하고 기술을 유연하게 구성하기 위해 조건부 생성 모델링 프레임워크를 활용한다.

의사결정 확산기

img

img

결과 개요

img

제약 조건 만족시키기

스태킹 제약 조건 조합하기

imgimgimg

img

재배열 제약 조건 조합하기

imgimgimg

img

스태킹 및 재배열에서의 ‘금지’ 제약 조건

imgimg

img

실행 불가능한 제약 조건은 일관성 없는 행동으로 이어진다

img

img

배경

확산 확률 모델

확산 모델 (Sohl-Dickstein et al., 2015) , (Ho et al., 2020) 은 데이터셋 \(\mathcal{D} := \{ \V x^i \}_{0 \leq i < M}\) 에서 데이터 분포 \(q(\V x)\)를 학습하는 특정 유형의 생성 모델이다. 이들은 주로 텍스트 설명에서 고품질 이미지를 합성하는 데 사용되었다. 여기서 데이터 생성 절차는 사전 정의된 전방 소음 과정 \(q(\V x_{k-1} \mid \V x_k) := \mathcal{N}(\V x_{k+1}; \sqrt{\alpha_k} \V x_k, (1-\alpha_k) \V I)\)과 훈련 가능한 역방향 과정 \(p_\theta(\V x_{k-1} \mid \V x_k) := \mathcal{N} (\V x_{k-1} \mid \mu_\theta (\V x_k, k), \Sigma_k)\)으로 모델링된다. 여기서 \(\mathcal{N}(\mu, \Sigma)\)는 평균 \(\mu\)와 분산 \(\Sigma\)를 가진 가우시안 분포를 나타내며, \(\alpha_k \in \mathbb{R}\)는 분산 일정을 결정하고, \(\V x_0 := \V x\)는 샘플이며, \(\V x_1, \V x_2, \ldots, \V x_{K-1}\)은 잠재 변수이고, \(\V x_K \sim \mathcal{N}(\V 0, \V I)\)는 충분히 긴 \(K\)와 신중하게 선택된 \(\alpha_k\)에 대해 설정된다. 가우시안 노이즈로 시작하여, 샘플은 일련의 “소음 제거” 단계를 통해 순차적으로 생성된다.

확산 모델을 훈련하기 위해 최적화할 수 있는 \(\log p_\theta\)의 실현 가능한 변분 하한이 있지만, (Ho et al., 2020) 은 단순화된 대체 손실을 제안한다:

\[\mathcal{L}_{\mathrm {denoise}}(\theta) := \mathbb{E}_{k \sim [1, K], \V x_0\sim q, \epsilon \sim \mathcal{N}(\V 0, \V I)}[\| \epsilon - \epsilon_0 (\V x_k, k)\|^2]\]

예측된 노이즈 \(\epsilon_\theta(\V x_k, k)\)는 심층 신경망으로 매개변수화되어 데이터셋 샘플 \(\V x_0\)에 추가된 노이즈 \(\epsilon \sim \mathcal{N}(0, I)\)를 추정한다. 이는 \(\mu_\theta(\V x_k, k)\)가 \(\epsilon_\theta(\V x_k, k)\)의 함수로 계산될 수 있으므로 \(p_\theta(\V x_{k-1} \mid \V x_k)\)의 평균을 예측하는 것과 동일하다 (Ho et al., 2020) .

참조자료

  1. Ajay, A., Du, Y., Gupta, A., Tenenbaum, J., Jaakkola, T., & Agrawal, P. (2022). Is Conditional Generative Modeling all you need for Decision-Making? arXiv. doi: 10.48550/ARXIV.2211.15657 https://arxiv.org/abs/2211.15657
  2. Sohl-Dickstein, J., Weiss, E. A., Maheswaranathan, N., & Ganguli, S. (2015). Deep Unsupervised Learning using Nonequilibrium Thermodynamics. CoRR, abs/1503.03585. http://arxiv.org/abs/1503.03585
  3. Ho, J., Jain, A., & Abbeel, P. (2020). Denoising Diffusion Probabilistic Models. In H. Larochelle, M. Ranzato, R. Hadsell, M. F. Balcan, & H. Lin (Eds.), Advances in Neural Information Processing Systems (Vol. 33, pp. 6840–6851). Curran Associates, Inc. https://proceedings.neurips.cc/paper/2020/file/4c5bcfec8584af0d967f1ab10179ca4b-Paper.pdf
이 기사는 저작권자의 CC BY 4.0 라이센스를 따릅니다.

일반주의 신경 알고리즘 학습자

-