"단일 턴 프롬프트만으로도 기존 LLM 방어 체계를 우회할 수 있음을 입증"
ACL(Association for Computational Linguistics)은 자연어처리 및 전산언어학 분야에서 세계 최고 권위를 자랑하는 국제 학술대회다.
이번 연구는 공격 성공률 95.9%를 기록하면서도 토큰 사용량을 80%까지 절감했다. 더해 대규모 언어 모델(LLM) 보안 연구의 효율성을 크게 높였으며 LLM의 잠재적 보안 취약점을 체계적으로 규명했다.
최근 학계에서는 공격 효율을 높이기 위한 멀티턴 프롬프트 연구가 활발했다. 이번 연구는 이를 단일 턴으로 압축해도 동등하거나 더 높은 위협을 재현할 수 있음을 입증했다.
연구팀이 개발한 M2S(Multi-turn-to-Single-turn) 프레임워크는 하이픈화·숫자화·파이썬화의 3단계 변환을 통해 공격 대화를 구조화한다.
또한 Mistral-7B에서 95.9%의 공격 성공률을 기록해 GPT-4o 대비 17.5%p 향상됐으며 토큰 사용량을 70~80%까지 줄여 같은 목적지에 연료를 5분의 1만 소비하는 효과를 보였다.
하준우 학부생은 "수업과 병행하며 얻은 '실전 연구' 경험이었다"며 "스타트업과 학교를 오가며 공동 1저자인 김현준과 함께 AI 안전 문제를 직접 정의하고 해결한 과정 자체가 큰 자산이 됐다"고 밝혔다.
한편 이번 논문 채택에 대한 공식 발표는 7월 28일부터 30일까지 오스트리아 빈 오스트리아 센터 비엔나(Austria Center Vienna)에서 진행될 예정이다.
◎공감언론 뉴시스 soooo@newsis.com