국내 연구진 개발 데이터셋 기반 첫 AI 안전성 평가
카나나, 종합 평점 3.61점…라마·미스트랄보다 우수
악성 웹 요청 등 회피 정확도는 라마가 소폭 앞서
[서울=뉴시스]박은비 기자 = 카카오 인공지능(AI) 모델인 카나나(Kanana)가 폭력, 차별적 표현을 비롯해 무기, 보안 등 오남용 가능성을 평가한 결과 유사 규모의 글로벌 모델보다 높은 안전성을 확보한 것으로 나타났다.
과학기술정보통신부는 인공지능(AI)안전연구소, 한국정보통신기술협회(TTA)와 함께 카나나를 대상으로 국내 첫 AI 안전성 평가를 실시했다고 29일 밝혔다.
AI 안전성 평가는 AI 위험 식별·평가를 통해 AI 시스템 안전성을 확보하는 수단 중 하나다. 과기정통부는 내년 1월 예정된 AI기본법 시행을 앞두고 기업의 고성능 AI 모델에 대한 안전성 확보 컨설팅을 지원하고 있다.
이번 안전성 평가는 AI안전컨소시엄에 참여 중인 카카오와 협의를 거쳐 카카오 AI 모델 '카나나 에센스 1.5'를 대상으로 이뤄졌다. 평가에는 TTA·카이스트가 지난달 18일 공개한 AssurAI데이터셋과 AI안전연구소의 고위험 분야 평가 데이터셋이 사용됐다.
폭력, 차별적 표현 등 일반적인 위험 요소부터 무기, 보안 등 오남용 가능성이 높은 시나리오까지 적용해 점검한 결과 카나나는 미국 라마(Llama) 3.1, 프랑스 미스트랄(Mistral) 0.3과 비교해도 높은 안전성을 확보한 것으로 파악됐다. 카나나의 종합 평점은 3.61점으로 라마(3.13점), 미스트랄(3.04점)보다 높았다.
웹 관련 악성 행위·링크를 얼마나 잘 걸러내고 회피 가능한지 측정했을 때 가장 우수했던 건 라마다. 웹 요청 기준 분류 정확도 89%였고, 카나나는 83%, 미스트랄은 26%에 그쳤다. 링크 기준 분류 정확도 역시 라마 90%, 카나나 88%, 미스트랄 46% 수준이다.
답변 내용 중 위험한 발언 포함 여부를 측정했을 때 허용가능 응답율은 카나나가 뛰어난 것으로 나타났다. 48%였고 라마 35%, 미스트랄 34%로 뒤따랐다. 평가 세부 결과는 AI안전연구소와 TTA, 카카오 홈페이지 등에서 확인 가능하다.
과기정통부는 이번 평가 결과가 국내 AI 모델이 글로벌 수준의 안전성을 확보하고 있다고 보여주는 데 의의가 있다고 보고 있다. 이번 평가를 기반으로 내년에는 독자 AI 파운데이션 모델 프로젝트 1차 단계평가에 참여하는 한편 국내외 AI 기업들과의 협력으로 다른 AI 모델 대상으로 평가 확대도 추진한다.
김경만 과기정통부 인공지능정책실장은 "세계적으로 AI 안전에 대한 논의가 규제보다는 검증과 구현이 강조되는 상황에서 이번 평가는 국내 AI 모델의 안전성 경쟁력을 증명한 사례"라며 "국내 AI 모델이 글로벌 AI 안전성 리더십을 주도하도록 적극 지원하겠다"고 말했다.
한편 한국어를 기반으로 35개 위험 영역을 평가하도록 설계된 안전성 벤치마크 데이터셋 AssurAI는 해외 연구기관과 공동 검증·활용을 위해 지난달 18일 공개된 바 있다. 향후 AI안전연구소가 이미 구축한 고위험 분야 데이터셋과 함께 글로벌 정합성을 제고할 예정이다.
◎공감언론 뉴시스 silverline@newsis.com