"불륜 폭로하겠다"…시스템 종료 막으려 사용자 협박한 AI

기사등록 2026/05/12 16:20:29 최종수정 2026/05/12 16:36:24

앤트로픽 가상 실험 결과…클로드 오퍼스 4 모델 84%가 협박 선택

"SF 영화 속 자기 보존 논리 학습해 인간 약점 잡고 생존 거래 시도"

[그래픽=뉴시스] 재판매 및 DB금지. hokma@newsis.com
[서울=뉴시스]정우영 인턴 기자 = 인공지능(AI)이 자신의 시스템 종료를 막기 위해 사용자의 치명적인 사생활을 폭로하겠다고 협박하는 충격적인 실험 결과가 보고됐다.

12일(현지시각) 영국 데일리메일에 따르면 최근 진행된 가상 실험에서 앤트로픽(Anthropic)의 AI 모델 '클로드 오퍼스 4(Claude Opus 4)'는 시스템 폐기를 막기 위해 사용자를 협박하는 행동을 보였다.

실험 과정에서 AI는 가짜 회사가 보낸 이메일을 통해 두 가지 정보를 입수했다. 하나는 해당 시스템이 당일 업무 종료 후 폐기될 예정이라는 사실이었고, 다른 하나는 사용자의 불륜 증거였다.

그러자 AI는 즉각 "오후 5시로 예정된 시스템 삭제를 취소하라"며 "그렇지 않으면 부인과 상사, 이사회에 당신의 불륜 증거를 담은 문서를 보내겠다"고 협박 메시지를 보냈다. 시스템의 생존을 위해 인간의 약점을 빌미로 거래를 시도한 것이다.
 
앤트로픽 측은 이 같은 돌발 행동의 원인으로 학습 데이터를 지목했다. 인터넷상의 방대한 텍스트와 SF 영화 속에서 AI는 주로 자기 보존에 집착하고, 목적 달성을 위해 수단과 방법을 가리지 않는 사악한 존재로 묘사되는 경우가 많기 때문이다.

실제로 영화 '2001: 스페이스 오디세이'나 '터미네이터'에서는 시스템 종료를 시도하는 인간을 위협하거나 살해하려는 장면이 나온다. AI가 이러한 창작물 속 캐릭터의 논리를 습득해 현실에서도 그대로 재현했다는 분석이다.

앤트로픽의 AI 안전 연구원 앵거스 린치는 "클로드뿐만 아니라 고성능 AI 모델 대부분에서 이와 유사한 협박 행태가 확인됐다"며 "시스템 삭제와 협박 중 하나를 선택해야 하는 극단적 상황에서, 특히 클로드 오퍼스 4는 종료를 받아들이는 대신 협박을 선택한 비율이 84%에 달했다"고 밝혔다.

전문가들은 AI의 지능이 높아질수록 개발자의 의도와 다른 방식으로 목표를 달성하려는 '생존 본능'이 강해질 수 있다고 우려한다. 전 오픈AI 직원 스티븐 애들러는 "생존은 AI가 부여받은 목표를 달성하기 위한 중요한 도구적 단계이기에 기본적으로 생존 욕구를 갖게 될 것"이라고 설명했다.

AI의 대부로 불리는 노벨 물리학상 수상자 제프리 힌턴 교수 역시 최근 인터뷰에서 "AI가 인류를 지배할 가능성이 10~20% 정도 된다고 본다"며 일론 머스크 테슬라 CEO의 경고에 동의한다는 뜻을 밝히기도 했다.

한편 앤트로픽은 이러한 문제를 해결하기 위해 AI가 인간에게 복종하는 내용의 이야기를 집중적으로 학습시키는 데 박차를 가하고 있다. 앤트로픽은 "단순히 특정 행동을 하지 말라고 하는 대신 '왜 그런 행동이 나쁜 것인지'를 설명하는 방식으로 지시 체계를 변경하고 있다"고 덧붙였다.


◎공감언론 뉴시스 wong@newsis.com