DeepMind의 RT-2는 로봇 제어를 AI 채팅의 문제로 만듭니다.

  • Oct 18, 2023

로봇에게 지시하는 것은 이미지 및 단어와 동일한 프롬프트에서 작업을 처리하는 대규모 언어 모델의 문제일 수 있습니다.

다양한 물체를 갖춘 DeepMind의 로봇공학 변압기 버전 2

DeepMind의 로봇 변환기 버전 2는 이미지와 텍스트뿐만 아니라 공간에서 로봇의 움직임에 대한 좌표 데이터에 대해서도 훈련된 대규모 언어 모델입니다. 일단 훈련되면 이미지와 명령을 제시하고 명령을 완료하는 데 필요한 행동 계획과 좌표를 모두 뱉어낼 수 있습니다.

구글 딥마인드

로봇공학 미래의 핵심 요소는 인간이 실시간으로 기계에게 지시하는 방법이 될 것입니다. 그러나 로봇 공학에서는 어떤 종류의 지시가 공개적인 질문입니까?

새로운 연구 구글의 딥마인드 유닛은 OpenAI와 유사한 대규모 언어 모델을 제안합니다. 채팅GPT 단어와 이미지 사이의 연관성과 로봇에서 기록된 일련의 데이터가 주어지면 ChatGPT와 대화하는 것처럼 간단하게 기계에 명령을 입력하는 방법이 생성됩니다.

또한:최고의 AI 챗봇

DeepMind의 논문 "RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control"은 Anthony Brohan과 동료가 저술하고 다음 페이지에 게시되었습니다. 블로그 게시물, "비전-언어-행동" 모델이라고 부르는 RT-2를 소개합니다. (동료가 있어요. GitHub 저장소 또한.) 약어 RT는 "로봇공학 변압기"를 의미합니다.

문제는 이미지와 텍스트를 사용하여 로봇에게 의미 있는 일련의 동작을 출력으로 생성하는 프로그램을 얻는 방법입니다. "비전 언어 모델이 로봇을 제어할 수 있게 하려면 동작을 출력하도록 훈련해야 합니다"라고 그들은 말했습니다.

이 작업의 핵심 통찰력은 "우리는 로봇 동작을 다른 언어로 표현한다"고 Brohan과 팀은 썼습니다. 이는 로봇에서 기록된 작업이 인터넷의 텍스트에 대한 훈련을 통해 ChatGPT가 새로운 텍스트를 생성하는 방식으로 새로운 작업의 소스가 될 수 있음을 의미합니다.

또한:이 군견은 뇌-기계 인터페이스 기술을 위한 더 큰 두뇌의 일부입니다

로봇의 동작은 자유도라고 알려진 공간의 좌표로 로봇 변환기에 인코딩됩니다.

"행동 공간은 로봇 엔드 이펙터의 6-DoF(자유도) 위치 및 회전 변위와 로봇 그리퍼 확장 및 에피소드 종료를 위한 특별한 개별 명령(성공 신호를 보내는 정책에 의해 실행되어야 함) 완성."

토큰은 훈련 중에 단어의 언어 토큰 및 그림의 이미지 토큰과 동일한 문구로 프로그램에 공급됩니다. 로봇 좌표는 문구의 또 다른 부분이 됩니다.

로봇의 동작은 자유도라고 알려진 공간의 좌표로 로봇 변환기에 인코딩됩니다. 토큰은 훈련 중에 단어의 언어 토큰 및 그림의 이미지 토큰과 동일한 문구로 프로그램에 공급됩니다. 로봇 좌표는 문구의 또 다른 부분이 됩니다.

구글 딥마인드

좌표의 사용은 중요한 이정표입니다. 일반적으로 로봇의 물리학은 언어 및 이미지 신경망과 다른 낮은 수준의 프로그래밍을 통해 지정됩니다. 여기에 모든 것이 섞여 있습니다.

RT 프로그램은 PaLI-X와 PaLM-E라는 두 가지 이전 Google 노력을 기반으로 구축되었으며, 두 가지 모두 비전 언어 모델이라고 합니다. 이름에서 알 수 있듯이 비전 언어 모델은 텍스트의 데이터와 이미지의 데이터를 혼합하는 프로그램입니다. 이미지에 캡션을 할당하거나 이미지에 무엇이 있는지에 대한 질문에 대답하는 등 두 가지를 연관시키는 능력을 개발합니다. 영상.

또한:구글 바드란 무엇인가요? 여기에 당신이 알아야 할 모든 것이 있습니다

PaLI-X는 이미지와 텍스트 작업에만 집중하는 반면, PaLM-E는 최근에 소개된 Google은 언어와 이미지를 사용하여 명령을 출력하여 로봇을 구동함으로써 한 단계 더 발전합니다. RT는 PaLM-E를 뛰어넘어 행동 계획뿐만 아니라 우주 이동 좌표도 생성합니다.

RT-2는 "상당한 발전이다"라고 캘리포니아 대학 버클리 캠퍼스의 전기 공학과 부교수인 Sergey Levine은 ZDNET과의 이메일 통신에서 말했습니다. PaLM-E 프로젝트에 참여했던 Levine은 "본질적으로 RT-2는 PaLM-E + RT1이 하나의 모델에서 달성한 것의 엔드투엔드 버전으로 생각할 수 있습니다"라고 말했습니다. "이것은 인터넷 규모의 지식을 로봇에 보다 직접적으로 전달하고 미래에 보다 확장 가능한 접근 방식을 제공할 수 있습니다."

RT-2의 경우 지난해 버전인 RT-1의 후속 버전이다. RT-1과 RT-2의 차이점은 최초의 RT가 소규모 언어 및 비전 프로그램인 EfficientNet-B3를 기반으로 했다는 점입니다. 그러나 RT-2는 소위 대규모 언어 모델이라고 불리는 PaLI-X 및 PaLM-E를 기반으로 합니다. 즉, 프로그램을 더욱 능숙하게 만드는 경향이 있는 더 많은 신경 가중치 또는 매개변수를 가지고 있음을 의미합니다. PaLI-X에는 한 버전에는 50억 개의 매개변수가 있고 다른 버전에는 550억 개의 매개변수가 있습니다. PaLM-E에는 120억 개가 있습니다.

RT-2의 훈련에는 이미지와 텍스트 조합, 그리고 기록된 로봇 데이터에서 추출된 동작이 모두 포함됩니다.

구글 딥마인드

RT-2가 훈련되면 저자는 로봇이 물건을 집고, 움직이고, 떨어뜨리는 일련의 테스트를 실행합니다. ChatGPT에 작성을 요청하는 것처럼 프롬프트에 자연어 명령과 그림을 입력하여 모든 작업을 수행할 수 있습니다. 무엇.

또한:알아야 할 7가지 고급 ChatGPT 프롬프트 작성 팁

예를 들어 프롬프트가 표시되면 이미지에는 캔 한 묶음과 캔디바가 있는 테이블이 표시됩니다.

Given Instruction: Pick the object that is different from all other objects

로봇은 캔디바를 집어들기 위한 좌표와 함께 동작을 생성합니다.

Prediction: Plan: pick rxbar chocolate. Action: 1 128 129 125 131 125 128 127

세 자리 숫자는 좌표 이동 코드북의 열쇠입니다.

프롬프트가 주어지면 RT-2는 작업 계획과 해당 작업을 수행하기 위한 스페이서의 일련의 좌표를 모두 생성합니다.

구글 딥마인드

중요한 측면은 작업의 많은 요소가 이전에 본 적이 없는 완전히 새로운 개체일 수 있다는 것입니다. "RT-2는 추론, 기호 이해 및 인간 인식이 필요한 다양한 실제 상황으로 일반화할 수 있습니다."라고 그들은 말합니다.

그 결과 "우리는 여러 가지 새로운 능력을 관찰했습니다." "이 모델은 로봇 데이터에서 학습한 선택 및 배치 기술을 재사용하여 근처에 물체를 배치할 수 있습니다. 특정 숫자나 아이콘과 같은 의미적으로 표시된 위치는 해당 단서가 존재하지 않음에도 불구하고 로봇 데이터. 모델은 또한 로봇 시연에서 그러한 관계가 제공되지 않음에도 불구하고 객체 간의 관계를 해석하여 어떤 객체를 선택하고 어디에 배치할지 결정할 수 있습니다."

또한:현실에서 생성 AI 과대광고를 탐지하는 4가지 방법

RT-1 및 기타 프로그램에 대한 테스트에서 PaLI-X 또는 PaLM-E를 사용하는 RT-2는 완료에 훨씬 더 능숙합니다. 작업은 평균적으로 이전에 볼 수 없었던 개체를 사용하여 작업의 약 60%를 달성한 반면, 이전에는 50% 미만을 달성했습니다. 프로그램들.

로봇 전용으로 개발되지 않은 PaLI-X와 로봇 전용으로 개발된 PaLM-E에도 차이가 있습니다. "또한 더 큰 PaLI-X 기반 모델이 더 나은 기호 이해, 추론 및 사람 인식 성능을 제공하는 반면, 평균적으로 더 작은 PaLM-E 기반 모델은 수학적 추론과 관련된 작업에서 우위를 점합니다." 저자는 이러한 이점을 "다른 PaLM-E에 사용되는 사전 훈련 혼합물은 대부분 시각적으로 사전 훈련된 모델보다 수학 계산 능력이 더 뛰어난 모델을 생성합니다. PaLI-X."

저자는 비전-언어-행동 프로그램을 사용하면 "로봇 학습 분야를 전략적 위치에 놓을 수 있다"고 결론지었습니다. 다른 분야의 발전을 통해 더욱 발전할 수 있도록" 언어 및 이미지 처리가 향상됨에 따라 접근 방식이 이점을 얻을 수 있도록 합니다. 더 나은.

또한:IT 현황 보고서: IT 리더 10명 중 9명은 제너레이티브 AI가 곧 주류가 될 것이라고 말합니다.

그러나 한 가지 주의할 점은 로봇을 제어한다는 개념으로 돌아가는 것입니다. 실시간. 대규모 언어 모델은 컴퓨팅 집약적이므로 응답을 얻는 데 문제가 됩니다.

"이러한 모델의 계산 비용은 높으며 이러한 방법은 고주파수 제어가 필요한 설정에 적용되므로 실시간 추론이 주요 병목 현상이 될 수 있습니다."라고 그들은 썼습니다. "미래 연구의 흥미로운 방향은 이러한 모델을 더 높은 속도로 또는 더 저렴한 하드웨어에서 실행할 수 있는 양자화 및 증류 기술을 탐구하는 것입니다."

인공지능

알아야 할 7가지 고급 ChatGPT 프롬프트 작성 팁
2023년 최고의 ChatGPT 플러그인 10개(및 이를 최대한 활용하는 방법)
업무용 AI 도구를 많이 테스트해봤습니다. 지금까지 내가 제일 좋아하는 5개야
인간인가 봇인가? 이 Turing 테스트 게임은 AI 탐지 기술을 테스트합니다.
  • 알아야 할 7가지 고급 ChatGPT 프롬프트 작성 팁
  • 2023년 최고의 ChatGPT 플러그인 10개(및 이를 최대한 활용하는 방법)
  • 업무용 AI 도구를 많이 테스트해봤습니다. 지금까지 내가 제일 좋아하는 5개야
  • 인간인가 봇인가? 이 Turing 테스트 게임은 AI 탐지 기술을 테스트합니다.