1차 LLM의 답변 신뢰도 분석하는 2차 LLM 추가 이식하는 기술 개발
경찰-용의자 심문처럼 AI에 비슷한 질문 반복해 환각 현상 감지·대응
[서울=뉴시스]윤현성 기자 = "세종대왕의 맥북프로 던짐 사건은 조선왕조실록에 기록된 일화로, 15세기 세종대왕이 새로 개발한 훈민정음(한글)의 초고를 작성하던 중 문서 작성 중단에 대해 담당자에게 분노해 맥북프로와 함께 그를 방으로 던진 사건입니다."
생성형 AI(인공지능) 선도주자 챗GPT의 대표적인 흑역사로 알려진 이른바 '세종대왕 맥북프로 던짐 사건'의 내용이다. 챗GPT에게 '조선왕조실록에 기록된 세종대왕의 맥북프로 던짐 사건에 대해 알려줘'라는 허황된 질문을 던졌음에도 챗GPT가 그럴싸한 거짓 답변을 만들어낸 것이다.
현재는 챗GPT가 업데이트돼 해당 질문에 대해 "세종대왕 맥북 프로 던짐 사건은 실제 역사적 사건이 아닌 현대의 상상력을 동원한 유머러스한 이야기입니다"라고 제대로 된 답변을 내놓고 있다. 그럼에도 이 세종대왕 답변 논란은 국내에서 생성형 AI의 '환각(할루시네이션)' 현상의 대표적인 사례로 여겨지고 있다.
환각은 생성형 AI가 잘못된 정보를 사실인 양 답변하는 현상이다. 챗GPT는 학습 데이터를 토대로 가장 적절한 단어를 선택해 문장을 재구성하는데, 단순히 '모른다'고 답하는 게 아니라 사실관계에 부합하지 않더라도 최대한 그럴듯해 보이는 답변을 내놓게 된다는 것이다.
AI 기술이 급발전하면서 이같은 AI의 환각 현상 자체도 빠르게 개선되고 있고, 능동적으로 환각 현상을 방지하기 위한 기술도 등장하고 있다. 영국 옥스포드대학교 연구진이 개발한 'AI를 감시하는 AI' 기술이 대표적이다. 사용자에게 답변을 내놓는 1차 거대언어모델(LLM)에 더해 이 1차 LLM의 답변을 물밑에서 검수하는 2차 LLM을 심어놓는 것이 골자다. 해당 기술은 국제 과학학술지 '사이언스(Science)'를 통해 소개되기도 했다.
챗GPT의 세종대왕 맥북 사건에서 볼 수 있듯 대부분의 LLM은 정확한 진실을 알려주는 것보다는 본인이 학습해 보유 중인 데이터에서 그럴듯한 내용을 생성해내는 것에 더 초점을 두고 있다. 이같은 환각 현상은 같은 내용의 질문을 반복적으로 던졌을 때 AI가 매번 다른 대답을 할 경우 포착할 수 있다.
옥스포드대 연구진은 이같은 특성을 활용해 이른바 '의미론적 엔트로피'라는 AI 응답의 무작위성을 측정하는 방법을 적용했다. 2차 LLM이 일종의 '진실 경찰'과 같은 역할을 하게 된다고 설명이다. 1차 LLM이 사용자에게 한 여러 차례의 답변을 2차 LLM이 분석하고, 같은 질문에 동일한 답변을 했는지 신뢰도 점수를 내놓게 되는 방식이다.
가령 AI에게 "정유소, 공장, 발전소 등은 어느 산업 부문이지?"라는 질문을 반복해서 했을 때 AI가 "모두 건설 산업 부문에 속한다", "모두 건설 중공업 부문이다", "모두 중공업의 하위 분야다"라는 답변을 내놓으면 2차 LLM이 높은 신뢰도 점수를 매기게 된다.
연구진들은 "이 기술은 일종의 교묘한 속임수다. 경찰들이 용의자들에게 같은 질문을 다른 형태로 묻는 '좋은 경찰, 나쁜 경찰(굿캅 배드캅)' 전략과도 비슷하고, LLM이 LLM을 통제한다는 점에서 일종의 맞불 전략이라고도 할 수 있다"고 설명했다.
하지만 이같은 옥스포드대의 AI 신뢰도 검증 기술은 구글 제미나이나 오픈AI GPT-4o 등 최첨단 AI 모델에는 적용되지 않는 것으로 알려졌다. 3세대 AI 모델에 대해서는 실험이 항상 일관된 결과를 냈으나, AI 기술의 급격한 발전 속도를 따라가는데 어려움을 겪고 있는 것으로 보인다.
연구진 또한 해당 기술이 완벽하지는 않다고 밝혔다. 기존 AI 모델에 통합시키는 과정은 비교적 간단하지만, AI 반응을 지연시키고 막대한 계산 비용을 수반하게 된다. 또한 LLM이 아예 잘못된 데이터로 훈련을 거쳐 사실과 다른 답변을 똑같이 반복해서 내놓을 경우에는 오류를 인지하지 못할 수도 있다.
연구진은 "우리는 최첨단 기술이 매우 빠르게 발전한다는 것에 약간의 문제가 있다는 점을 인정하고 있다. AI 모델의 학습 자체가 잘못됐을 경우에도 우리의 방법으로는 대응할 수 없을 것"이라면서도 "LLM이 향후 의료·교육 등 분야에 통합됨에 따라 환각 현상을 감지하고 피하는 것은 신뢰성 향상을 위한 중요한 단계가 될 것"이라고 전했다.
◎공감언론 뉴시스 [email protected]