NIA-TTA, LLM 학습 데이터 내 유해 표현 검출 모델 공개
"한국어 LLM 신뢰성 및 안전성 강화"…AI허브에 개방
[서울=뉴시스] 심지혜 기자 = 한국지능정보사회진흥원(NIA)과 한국정보통신기술협회(TTA)는 대규모 언어모델(LLM) 학습용 데이터 내 '유해 표현 검출 인공지능 모델 및 유해 표현 학습용 데이터'를 공개했다고 14일 밝혔다.
공개된 인공지능 모델은 주어진 말뭉치 데이터 내에서 유해 표현을 검출하고 다양한 유해 표현 카테고리로 분류하는 기능을 수행할 수 있다.
과기정통부 초거대AI 확산 생태계 조성 사업의 일환으로 LLM 데이터의 품질검증 과정에서 주요 특성 중 하나인 ‘유해성’을 측정하기 위해 개발했다. 자체 성능 검증 결과 높은 정확도(80~90%)를 달성하여 유해 표현 검출의 효용성을 입증했다.
인공지능 모델에 학습시키기 위해 구축된 데이터는 ▲유해 표현 검출용 데이터 20만 건과 ▲유해 표현 카테고리 구분용 데이터 21만 건으로 구성돼 있다.
국가인권위원회의 혐오 표현에 대한 안내서 등과 같은 신뢰할 수 있는 가이드라인을 참조해 유해 표현 및 유해 카테고리를 명확하게 정의하고 이를 재가공해 데이터의 일관성과 신뢰성을 확보했다.
이번에 공개된 데이터 및 인공지능 모델은 과학기술정보통신부와 NIA가 운영하는 국내 최대 AI 학습용 데이터 제공 플랫폼 'AI 허브'에서 확인할 수 있다.
황종성 NIA 원장은 "인공지능 기술의 발전은 기술적 진보뿐만 아니라 사회적 책임을 담보할 수 있는 윤리적 고려가 반드시 병행돼야 한다"며 "이는 지속 가능한 인공지능 생태계 조성을 위한 핵심 요소"라고 강조했다.
이어 "이번 인공지능 모델 및 데이터의 공개가 한국어 LLM의 신뢰성 및 안전성을 강화하기 위한 계기가 될 것으로 기대한다"고 했다.
◎공감언론 뉴시스 siming@newsis.com