가토. 딥마인드에서 나온 generalist AI agent (Reed et al., 2022) 로, GATO의 약자는 정확히 모르겠다. “Generalist Agent beyond the realm of Text Outputs” 정도 되지 않을까 싶다.. 하하. 범용 인공지능으로 번역하는 사람도 있었으나, 범용 인공지능(Artificial General Intelligence, AGI)와 혼동될 수 있어 그냥 “가토”라로 불러주자. 물론 GATO가 AGI를 향한 중요한 마일스톤 중의 하나라고 생각하지만 말이다.
초록
대규모 언어 모델링에서의 진보에 영감을 받아, 저자들은 텍스트 출력을 넘어서 단일 일반화 에이전트를 구축하는 데 비슷한 접근 방식을 적용한다.
이 에이전트, 우리가 가토(Gato)라고 부르는 것은 다중 모달, 다중 작업, 다중 실체화 일반화 정책으로 작동한다. 동일한 네트워크와 동일한 가중치를 가진 에이전트는 아타리를 플레이하고, 이미지에 캡션을 달고, 채팅하고, 실제 로봇 팔로 블록을 쌓는 등을 할 수 있으며, 텍스트, 조인트 토크, 버튼 누르기 또는 다른 토큰을 출력할지 여부를 그 상황에 따라 결정한다. 이 보고서에서 저자들은 모델과 데이터를 설명하고, 가토의 현재 능력을 문서화한다.
가토(Gato)의 훈련 단계에서는 다양한 작업과 모달리티에서 나온 데이터를 토큰의 평평한 시퀀스로 직렬화하고, 배치 처리한 다음 대규모 언어 모델과 유사한 트랜스포머 신경망으로 처리한다. 손실은 가토가 행동과 텍스트 목표만을 예측하도록 마스킹된다.
가토를 배포할 때, 데모와 같은 프롬프트는 토큰화되어 초기 시퀀스를 형성한다. 다음으로, 환경에서 첫 번째 관찰을 얻어 이를 토큰화하고 시퀀스에 추가한다. 가토는 한 번에 하나의 토큰을 자기회귀적으로 행동 벡터를 샘플링한다.
행동 벡터를 구성하는 모든 토큰이 샘플링되면(환경의 행동 사양에 의해 결정됨), 행동이 디코딩되어 환경으로 전송되고 환경은 새로운 관찰을 수행하고 제공한다. 그런 다음 절차가 반복된다. 모델은 항상 1024 토큰의 컨텍스트 창 내에서 이전의 모든 관찰과 행동을 본다.
가토는 모의 환경과 실제 환경에서의 에이전트 경험을 포함한 다양한 데이터셋과 더불어 자연어 및 이미지 데이터셋에 대해 대규모로 훈련된다. 사전 훈련된 가토 모델의 성능이 전문가 점수의 일정 비율 이상인 작업의 수는 도메인별로 여기에 나타나 있다.
다음 이미지들은 사전 훈련된 가토 모델이 동일한 가중치로 이미지 캡셔닝, 인터랙티브 대화 참여, 로봇 팔 제어 등 다양한 작업을 수행하는 방법을 보여준다.
References
- Reed, S., Zolna, K., Parisotto, E., Colmenarejo, S. G., Novikov, A., Barth-Maron, G., Gimenez, M., Sulsky, Y., Kay, J., Springenberg, J. T., Eccles, T., Bruce, J., Razavi, A., Edwards, A., Heess, N., Chen, Y., Hadsell, R., Vinyals, O., Bordbar, M., & de Freitas, N. (2022). A Generalist Agent. arXiv. doi: 10.48550/ARXIV.2205.06175 https://arxiv.org/abs/2205.06175