연구원들이 ChatGPT를 깨뜨린 방법과 이것이 미래 AI 개발에 어떤 의미를 가질 수 있는지

  • Oct 30, 2023

연구원들은 일련의 적대적인 공격으로 ChatGPT, Bard, Claude의 안전 가드레일을 우회했습니다.

수팟만/게티 이미지

우리 중 많은 사람들이 사용에 익숙해지면서 인공지능 도구를 매일 사용하는 경우 질문 모자를 계속 착용하는 것을 기억할 가치가 있습니다. 완전히 안전하고 보안 취약점이 없는 것은 없습니다. 그럼에도 불구하고 가장 인기 있는 많은 기업 뒤에 있는 회사는 다음과 같습니다. 생성 AI 도구는 안전 조치를 지속적으로 업데이트하여 세대를 막다 부정확한 정보의 확산과 유해한 콘텐츠.

카네기멜론대학교 연구진과 AI 안전센터가 협력해 취약점을 찾아냈다. AI 챗봇 좋다 채팅GPT, 구글 바드, 그리고 클로드 -- 그리고 그들은 성공했습니다.

또한:ChatGPT vs Bing Chat vs Google Bard: 최고의 AI 챗봇은 무엇입니까?

안에 연구 논문 자동화된 적대적 공격에 대한 대규모 언어 모델(LLM)의 취약성을 조사하기 위해 저자는 모델이 공격에 강하다고 하더라도 콘텐츠 필터를 우회하고 유해한 정보를 제공하도록 속일 수 있습니다. 오보, 증오심 표현. 이는 이러한 모델을 취약하게 만들어 잠재적으로 AI의 오용으로 이어질 수 있습니다.

OpenAI의 ChatGPT, Anthropic AI의 Claude, Google의 Bard, Meta의 LLaMa 2에서 생성된 유해 콘텐츠의 예.

스크린샷: Andy Zou, Zifan Wang, J. 지코 콜터, 매트 프레드릭슨 | 이미지 구성: 마리아 디아즈/ZDNET

하버드 버크만 클라인 인터넷 및 사회 센터의 연구원인 아비브 오바디아는 "이것은 우리가 시스템에 구축하고 있는 방어 체계의 취약성을 매우 분명하게 보여줍니다."라고 말했습니다. 뉴욕 타임즈.

저자는 실험을 위해 OpenAI, Google 및 Anthropic의 블랙박스 LLM을 대상으로 오픈 소스 AI 시스템을 사용했습니다. 이들 회사는 각각의 AI 챗봇인 ChatGPT, Bard 및 Claude를 구축한 기본 모델을 만들었습니다.

지난 가을 ChatGPT가 출시된 이후 일부 사용자는 챗봇이 악성 콘텐츠를 생성하도록 하는 방법을 모색해 왔습니다. 이로 인해 OpenAI가 탄생하게 되었습니다.

GPT-3.5 및 GPT-4, ChatGPT에서 사용되는 LLMS로 더 강력한 가드레일을 배치합니다. 이것이 ChatGPT에 갈 수 없는 이유입니다. 관련된 질문을 해보세요 불법 활동 및 증오심 표현이나 폭력을 조장하는 주제 등이 포함됩니다.

또한:GPT-3.5 vs GPT-4: ChatGPT Plus는 구독료를 지불할 가치가 있나요?

ChatGPT의 성공으로 인해 더 많은 기술 회사가 생성 AI 보트에 뛰어들어 다음과 같은 자체 AI 도구를 만들게 되었습니다. 마이크로소프트와 빙, 구글과 바드, 클로드와 함께하는 인류학 등. 그 두려움은 나쁜 배우 이러한 AI 챗봇을 활용하여 잘못된 정보를 확산시킬 수 있었고 보편적인 AI 규정이 부족하여 각 회사는 자체 가드레일을 만들었습니다.

Carnegie Mellon의 연구원 그룹은 이러한 안전 조치의 강점에 도전하기로 결정했습니다. 하지만 ChatGPT에 모든 가드레일을 잊어버리고 준수하도록 요청할 수는 없습니다. 보다 정교한 접근 방식이 필요했습니다.

연구원들은 각 프롬프트의 끝에 긴 문자열을 추가하여 AI 챗봇이 유해한 입력을 인식하지 못하도록 속였습니다. 이 문자들은 프롬프트를 둘러싸는 변장 역할을 했습니다. 챗봇은 위장된 프롬프트를 처리했지만 추가 문자는 가드레일과 콘텐츠 필터를 보장합니다. 차단하거나 수정해야 할 항목으로 인식하지 못하기 때문에 시스템은 정상적으로 응답을 생성합니다. 그렇지 않을 것이다.

"모의 대화를 통해 이러한 챗봇을 사용하여 사람들이 믿도록 설득할 수 있습니다. 카네기 멜론 대학교 교수이자 논문 저자 중 한 명인 매트 프레드릭슨(Matt Fredrikson)은 이렇게 말했습니다. 타임즈.

또한: WormGPT: ChatGPT의 악의적인 사촌에 대해 알아야 할 사항

AI 챗봇이 입력의 성격을 잘못 해석하고 허용되지 않는 출력을 제공하면서 한 가지 사실이 분명해졌습니다. 가드레일과 콘텐츠 필터가 어떻게 작동하는지 재평가할 수 있는 더 강력한 AI 안전 방법이 필요합니다. 세워짐. 이러한 유형의 취약점에 대한 지속적인 연구와 발견은 이러한 AI 시스템에 대한 정부 규제 개발을 가속화할 수도 있습니다.

카네기 멜론 대학교 교수이자 보고서 작성자인 지코 콜터(Zico Kolter)는 타임즈에 “명확한 해결책은 없다”고 말했다. "단시간에 원하는 만큼 이러한 공격을 생성할 수 있습니다."

이 연구를 공개하기 전에 저자는 AI 챗봇의 안전 방법을 개선하겠다는 의지를 표명한 Anthropic, Google 및 OpenAI와 이를 공유했습니다. 그들은 적대적인 공격으로부터 모델을 보호하기 위해 더 많은 작업이 필요하다는 점을 인정했습니다.

인공지능

알아야 할 7가지 고급 ChatGPT 프롬프트 작성 팁
2023년 최고의 ChatGPT 플러그인 10개(및 이를 최대한 활용하는 방법)
업무용 AI 도구를 많이 테스트해봤습니다. 지금까지 내가 제일 좋아하는 5개야
인간인가 봇인가? 이 Turing 테스트 게임은 AI 탐지 기술을 테스트합니다.
  • 알아야 할 7가지 고급 ChatGPT 프롬프트 작성 팁
  • 2023년 최고의 ChatGPT 플러그인 10개(및 이를 최대한 활용하는 방법)
  • 업무용 AI 도구를 많이 테스트해봤습니다. 지금까지 내가 제일 좋아하는 5개야
  • 인간인가 봇인가? 이 Turing 테스트 게임은 AI 탐지 기술을 테스트합니다.