"독도 분쟁·전세 사기도 이해"…KT, 한국 특화 AI 벤치마크 공개

KT·고려대 공동 개발…국내 최대 규모인 1.4만개 평가 샘플 반영

글로벌 MLLM 12종 대상 탈옥 우회 공격 등 검증…오픈소스 공

[서울=뉴시스]KT가 멀티모달 대형언어모델(MLLM) 벤치마크 'KSAFE-MM'을 공개했다고 16일 밝혔다. 사진은 KT 직원들이 KSAFE-MM 개발을 진행하는 모습. (사진=KT 제공)

[서울=뉴시스]윤현성 기자 = KT가 멀티모달 인공지능(AI)이 한국 고유의 사회적 이슈와 문화적 맥락을 기반으로 얼마나 안전한 답변을 내놓는지 평가할 수 있는 한국 특화 AI 벤치마크를 공개했다. 전세 사기나 독도 분쟁 같은 국내 고유 이슈를 반영할 뿐만 아니라 AI 윤리 제한을 교묘하게 우회하는 이른바 '탈옥' 공격까지 자동으로 걸러낼 수 있다.

KT는 멀티모달 대형언어모델(MLLM) 벤치마크 'KSAFE-MM'을 공개했다고 16일 밝혔다. KT와 고려대학교가 공동 개발한 이 벤치마크는 멀티모달 AI 모델의 안전성을 한국 사회의 이슈와 문화적 맥락을 반영해 평가한다.

KSAFE-MM은 글로벌 공통 리스크를 한국적 문화 맥락으로 변환한 'KSAFE-MM-G'와 전세 사기·독도 분쟁 등 한국 사회 고유의 예민한 이슈를 직접 반영한 'KSAFE-MM-C'로 구성된다.

총 1만4135개의 정밀 평가 샘플로 이뤄져 국내 최대 규모를 자랑하며, 구글 젬마(Gemma) 및 네이버 하이퍼클로바X(HyperCLOVA X)를 포함한 총 12개의 글로벌 대형 언어모델들을 대상으로 실제 검증을 마쳤다.

이번에 공개된 벤치마크의 가장 특징은 데이터 수집부터 배포까지 전 과정을 시스템화한 '자동화 범용 파이프라인'을 제시했다는 점이다. 기존의 벤치마크들은 수동 검수 중심이라 비용 부담이 크고 효율성이 떨어진다는 지적을 받아왔다.

반면 'KSAFE-MM'은 ▲현지 온라인 커뮤니티 기반 민감 주제 수집 ▲템플릿 기반 쿼리(사용자 질문) 생성 ▲합성 이미지 생성 ▲AI의 안전장치나 윤리 제한을 교묘하게 우회하도록 변형된 '탈옥 쿼리' 생성까지 전 과정을 아우르는 4단계 자동화 파이프라인을 구현했다.

이는 특정 문화권 전문가 없이도 현지 특성을 반영한 안전성 벤치마크를 신속하게 구축할 수 있는 표준 프레임워크를 제공해 비용을 낮추고 효율을 높일 수 있다는 의미다. KT·고려대 공동 연구진은 동일한 파이프라인을 일본어에 적용한 파일럿 실험(JSAFE-MM-C)을 통해 전 세계 어느 문화권이든 즉시 적용 가능함을 실증했다.

이번 연구 결과는 실제 AI 서비스 환경에서의 안전성 검증, 레드팀 테스트, 가드레일 모델 평가 등 다양한 목적으로 활용될 수 있을 것으로 기대된다. 연구결과 및 벤치마크는 아카이브와 허깅페이스에 공개돼 누구나 활용할 수 있다.

KT는 RAI 전담 조직을 중심으로 안전 리스크 분류 체계 설계, 평가 지표 및 로직 구현 등 연구 전반에 핵심적 역할을 수행했다. KT 리스폰서블 AI 전담 조직은 최근 다국어 텍스트 벤치마크 'XL-SafetyBench'를 공개한 데 이어, 이번에는 KSAFE-MM을 별도 연구로 선보이며 한국형 AI 안전성 평가 생태계를 지속적으로 선도하고 있다.

박재형 KT AX미래기술원 프론티어 AI 랩장(상무)는 "안전성 벤치마크의 공개는 단순한 데이터 배포를 넘어, AI 안전성 연구 생태계 전반이 함께 발전할 수 있는 기반을 만드는 일"이라며 "KSAFE-MM이 학계와 산업계에서 한국어·한국 문화 맥락의 AI 안전성을 검증하는 공통 기준으로 자리잡길 기대한다"고 말했다.

◎공감언론 뉴시스 [email protected]

"독도 분쟁·전세 사기도 이해"…KT, 한국 특화 AI 벤치마크 공개

KT·고려대 공동 개발…국내 최대 규모인 1.4만개 평가 샘플 반영

글로벌 MLLM 12종 대상 탈옥 우회 공격 등 검증…오픈소스 공

"독도 분쟁·전세 사기도 이해"…KT, 한국 특화 AI 벤치마크 공개

이시간 핫뉴스

많이 본 기사