뮌헨서 열린 '사후학습 대규모 언어모델 백도어 방어 챌린지'
생성·분류·다국어 과제 아우른 범용 공격 완화 기법 호평
![[울산=뉴시스] 사진 윗줄 왼쪽부터 UNIST 박새롬·윤성환 교수, 아랫줄은 하승범·윤지은·권기완 연구원. (사진=UNIST 제공) 2026.03.30. photo@newsis.com *재판매 및 DB 금지](https://img1.newsis.com/2026/03/30/NISI20260330_0002097250_web.jpg?rnd=20260330132339)
[울산=뉴시스] 사진 윗줄 왼쪽부터 UNIST 박새롬·윤성환 교수, 아랫줄은 하승범·윤지은·권기완 연구원. (사진=UNIST 제공) 2026.03.30. [email protected] *재판매 및 DB 금지
[울산=뉴시스] 구미현 기자 = AI(인공지능)는 보이지 않게 심어진 신호 하나로 위험한 답을 내놓기도 한다. 국내 연구진이 이런 숨은 조작을 걷어내는 해법으로 국제 무대에서 성과를 냈다.
울산과학기술원(UNIST)은 산업공학과·인공지능대학원 박새롬 교수와 인공지능대학원·전기전자공학과 윤성환 교수 공동 연구팀이 최근 독일 뮌헨에서 열린 국제전기전자공학회(IEEE) 보안·신뢰 기계학습 학회(SaTML)의 '사후학습 대규모 언어모델 백도어 방어 챌린지'에서 2위를 차지했다고 30일 밝혔다.
연구팀은 생성, 분류, 다국어 등 서로 다른 과제에 두루 적용할 수 있는 범용 공격 완화 기법을 제시해 호평을 받았다.
보안·신뢰 기계학습 학회(SaTML)는 인공지능 보안 연구를 중심으로 열리는 IEEE 주관 국제 학술대회로 지난 22일부터 25일까지 독일 뮌헨에서 열렸다. 올해로 4회째를 맞은 이 학회는 인공지능 모델을 위협하는 각종 공격과 이를 막는 방어 기술을 발표하고 논의하는 장으로 자리 잡았다. 관련 기술 경연대회도 매년 활발히 열리며, 글로벌 AI 안전성 연구 경향을 가늠하는 무대로 통한다.
이번 연구에는 박새롬, 윤성환 교수를 비롯해 윤지은(산업공학과 석박사통합과정), 권기완(산업공학과 석사과정), 하승범(인공지능대학원 석박사통합과정) 연구원이 참여했다.
백도어 공격은 인공지능 모델이 특정 결과를 내놓도록 몰래 심는 조작 기법이다. 평소에는 정상적으로 작동하지만, 특정 단어나 문장 같은 ‘트리거’가 입력되면 의도된 반응을 보이도록 만드는 방식이다.
UNIST 공동 연구팀의 핵심 기술은 '모델 양자화(model quantization)', '모델 병합(model merging)', '이상치 매개변수 탐지(outlier parameter detection)', '과신뢰 방지(overconfidence mitigation)'를 결합한 전략이다.
생성 과제에서는 같은 작업을 수행하는 모델이라도 백도어가 심어진 양상이 서로 달랐다. 연구팀은 먼저 모델 양자화 과정에서 생기는 미세한 흔들림으로 숨어 있던 백도어 신호를 흐트러뜨렸다. 이어 여러 모델이 공통적으로 유지하는 정보만 남기는 합의 기반 모델 병합 기법을 적용해 악의적 반응을 약화시켰다.
대회에 참여한 윤지은 연구원은 "이번 성과를 발판으로 인공지능 모델이 국민들에게 배포되기 전 악의적인 행동을 사전에 차단하고, 안전하고 믿을 수 있는 인공지능 사용 환경을 만드는 데 힘을 보태겠다"고 말했다.
◎공감언론 뉴시스 [email protected]
