동국대 연구진, AI 분야 국제 학술대회 'ICLR 2026' 논문 채택

기사등록 2026/03/16 17:17:31

대규모 언어 모델의 취약성 정밀 분석

새로운 프레임워크 'Slot GCG' 제안…오는 4월 발표

[서울=뉴시스] (왼쪽부터) 동국대 이우진 교수, 정승원(제1저자)·정지우·김현진·이윤석 석사과정생. (사진=동국대 제공) 2026.03.16. photo@newsis.com *재판매 및 DB 금지
[서울=뉴시스]박시은 인턴 기자 = 동국대학교는 컴퓨터·AI학부 인공지능전공 정승원·정지우·김현진·이윤석 석사과정생과 이우진 교수가 참여한 논문이 인공지능(AI) 분야 국제 학술대회 'ICLR 2026'에 채택됐다고 16일 밝혔다.

해당 논문 '슬롯GCG: 대규모 언어 모델의 탈옥 공격을 위한 위치적 취약점 활용 연구(SlotGCG: Exploiting the Positional Vulnerability in LLMs for Jailbreak Attacks)'는 오는 4월 열리는 'ICLR 2026'에서 발표될 예정이다.

이번 연구는 기존 대규모 언어 모델(LLM)의 보안 우회 공격이 프롬프트 끝부분에만 토큰을 추가하는 방식에 집중해 왔다는 한계에서 출발했다.

연구진은 프롬프트 내부의 특정 위치에 존재하는 취약 지점을 확인하고, 이를 정량화한 취약 슬롯 점수(VSS·Vulnerable Slot Score)와 새로운 공격 프레임워크 '슬롯(Slot) GCG'를 제안했다.

실험 결과, '슬롯 GCG'는 다양한 공개 LLM에서 기존 방식보다 평균 약 14% 높은 성능을 보였으며 최대 10배 빠른 속도를 기록했다. 아울러 방어 기법이 적용된 환경에서도 기존보다 29% 높은 공격 성공률을 보여, 기존 LLM 방어 체계의 한계를 증명했다.

동국대 연구진은 이번 성과에 대해 "더욱 견고한 LLM 방어 기법을 설계하기 위한 AI 안전성 검증 및 레드팀 연구"라며 "단순한 공격 기법 제안에 그치지 않고, 거대언어모델이 어떤 위치 정보에 취약한지 체계적으로 이해하고 적용할 수 있는 연구"라고 설명했다.

특히 프롬프트 내 위치별 취약성을 계량적으로 분석했다는 점에서 이번 연구는 향후 대규모 언어 모델의 안전성 평가, 정렬(alignment) 기술 고도화, 방어 프레임워크 설계에 폭넓게 활용될 가능성이 있다고 평가된다.


◎공감언론 뉴시스 xieunpark@newsis.com