고려대 "판결문 속 개인정보, 사람 대신 AI가 자동으로 지운다"

컴퓨터학과 연구팀, AI 비식별화 기술 개발

100만 건 대규모 학습 데이터 시스템 특허…국제 학회 EACL서 발표

[서울=뉴시스] (왼쪽부터) 고려대 컴퓨터학과 정연돈 교수(교신저자), 최우석 학사과정(제1저자), 김형빈 박사과정(제2저자). (사진=고려대 제공) 2026.04.15. photo@newsis.com *재판매 및 DB 금지

[서울=뉴시스] (왼쪽부터) 고려대 컴퓨터학과 정연돈 교수(교신저자), 최우석 학사과정(제1저자), 김형빈 박사과정(제2저자). (사진=고려대 제공) 2026.04.15. [email protected] *재판매 및 DB 금지

[서울=뉴시스]박시은 인턴 기자 = 고려대학교 컴퓨터학과 연구진이 인공지능(AI)을 이용해 재판 판결문의 개인정보를 신속·정확하게 비식별화하는 기술을 개발했다.

15일 고려대에 따르면 정연돈 교수 연구팀은 대규모 벤치마크 데이터셋 'K-리걸디아이디(LegalDeID)'와 고성능 AI 모델 '클루버트 CRF(KLUEBERT-CRF)'를 개발했다.

대한민국 헌법 제109조에 따라 재판의 심리와 판결은 공개돼야 하며, 이는 사법적 투명성을 보장하고 국민의 신뢰를 유지하기 위한 필수적인 조치다. 이때 판결문 공개는 개인의 이름과 주민등록번호, 주소 등 민감한 개인식별정보를 보호하는 방식으로 이뤄져야 한다.

기존의 수작업 방식으로는 개인정보를 가리는 데 문서 한 건당 약 2주가 소요됐다. 그 결과로 병목 현상이 발생해 전체 판결문 중 단 5.97%만이 비식별화 처리가 완료돼 공개된 상태다. 법원에서도 자동화를 추진하려 했으나, 기존 시스템은 개인정보를 찾아 마스킹하는 정확도가 약 8% 수준에 그쳐 실효성이 떨어졌다.

이에 연구진은 39개 법률 분야에서 2000건의 판결문과 사회관계망서비스(SNS) 대화 데이터 등을 결합해 약 100만 건에 달하는 대규모 학습 데이터를 구축하고, AI에게 학습시켜 비식별화를 수행하는 방식을 적용했다. 기존 모델에 조건부 무작위장(Random Field)이 결합되며 한국어 특유의 교착어 형태와 법률 문서의 복잡한 문장 구조를 효과적으로 처리하는 게 특징이다.

[서울=뉴시스] 개발된 합성 데이터 생성 및 라벨링 구조도. (사진=고려대 제공) 2026.04.15. photo@newsis.com *재판매 및 DB 금지

[서울=뉴시스] 개발된 합성 데이터 생성 및 라벨링 구조도. (사진=고려대 제공) 2026.04.15. [email protected] *재판매 및 DB 금지

개발된 'KLUEBERT-CRF' 모델은 정확도를 평가하는 지표인 '개체 수준 마이크로 F1 점수'에서 세계 최고 수준인 0.9923을 달성했다. 또한 파라미터를 기존 타 모델 대비 20배 가벼운 1억1000만 개 수준으로 설계하며 메모리 사용량을 대폭 절감했다.

연구진은 "고품질의 벤치마크 데이터셋을 통해 한국 리걸 테크(Legal Tech) 분야의 고질적인 데이터 부족 문제를 해결했다"며 "판결문 공개를 확대하고 사법 투명성을 높이는 데 이바지할 것"이라고 의의를 밝혔다.

한편 최우석 학사과정(제1저자)과 김형빈 박사과정(제2저자)이 참여한 이번 연구 성과는 지난달 모로코 라바트에서 개최된 자연어 처리 분야의 국제 학회 'EACL 2026'에서 발표됐으며, 국내 특허로도 출원됐다.

◎공감언론 뉴시스 [email protected]

고려대 "판결문 속 개인정보, 사람 대신 AI가 자동으로 지운다"

컴퓨터학과 연구팀, AI 비식별화 기술 개발

100만 건 대규모 학습 데이터 시스템 특허…국제 학회 EACL서 발표

고려대 "판결문 속 개인정보, 사람 대신 AI가 자동으로 지운다"

이시간 핫뉴스

많이 본 기사