대규모 언어 모델의 취약성 정밀 분석
새로운 프레임워크 'Slot GCG' 제안…오는 4월 발표
해당 논문 '슬롯GCG: 대규모 언어 모델의 탈옥 공격을 위한 위치적 취약점 활용 연구(SlotGCG: Exploiting the Positional Vulnerability in LLMs for Jailbreak Attacks)'는 오는 4월 열리는 'ICLR 2026'에서 발표될 예정이다.
이번 연구는 기존 대규모 언어 모델(LLM)의 보안 우회 공격이 프롬프트 끝부분에만 토큰을 추가하는 방식에 집중해 왔다는 한계에서 출발했다.
연구진은 프롬프트 내부의 특정 위치에 존재하는 취약 지점을 확인하고, 이를 정량화한 취약 슬롯 점수(VSS·Vulnerable Slot Score)와 새로운 공격 프레임워크 '슬롯(Slot) GCG'를 제안했다.
실험 결과, '슬롯 GCG'는 다양한 공개 LLM에서 기존 방식보다 평균 약 14% 높은 성능을 보였으며 최대 10배 빠른 속도를 기록했다. 아울러 방어 기법이 적용된 환경에서도 기존보다 29% 높은 공격 성공률을 보여, 기존 LLM 방어 체계의 한계를 증명했다.
동국대 연구진은 이번 성과에 대해 "더욱 견고한 LLM 방어 기법을 설계하기 위한 AI 안전성 검증 및 레드팀 연구"라며 "단순한 공격 기법 제안에 그치지 않고, 거대언어모델이 어떤 위치 정보에 취약한지 체계적으로 이해하고 적용할 수 있는 연구"라고 설명했다.
특히 프롬프트 내 위치별 취약성을 계량적으로 분석했다는 점에서 이번 연구는 향후 대규모 언어 모델의 안전성 평가, 정렬(alignment) 기술 고도화, 방어 프레임워크 설계에 폭넓게 활용될 가능성이 있다고 평가된다.
◎공감언론 뉴시스 xieunpark@newsis.com