마이크로소프트연구소와 협업, LLM '시간 환각' 자동진단
한국과학기술원(카이스트·KAIST)은 전기및전자공학부 황의종 교수팀이 마이크로소프트연구소(Microsoft Research)와 함께 시간 데이터베이스(DB) 기술을 활용해 거대언어모델(LLM)의 시간 추론능력을 자동으로 평가·진단하는 시스템을 개발했다고 14일 밝혔다.
인공지능이 사용자의 신뢰를 얻기 위해서는 시시각각 변화하는 현실정보를 정확히 이해하는 능력이 필수적이지만 기존 평가방식은 정답 일치 여부만을 확인하거나 복잡한 시간관계를 충분히 반영하지 못해 실제 환경의 다양한 질문을 제대로 평가하지 못했다.
이번에 연구팀은 장기간 검증된 '시간 데이터베이스(Temporal Database)' 설계이론을 인공지능 평가에 최초로 도입, 데이터의 시간적 흐름과 관계구조를 활용해 사람이 평가용 문제를 일일이 작성하지 않아도 데이터베이스(DB)만으로 13가지 유형의 복잡한 시간 기반 문제가 자동으로 생성되도록 했다.
이 기술은 사람이 문제를 직접 만들던 기존 방식에서 벗어나 데이터를 기반으로 평가문제가 자동 생성되도록 했고 DB를 기준으로 문제 생성부터 정답 도출, 검증까지 전 과정을 자동화해 기존처럼 문제를 일일이 수정할 필요가 없어 유지보수 부담도 줄였다.
특히 현실정보가 변경돼 해당 내용을 DB에 업데이트하면 평가문제와 정답, 검증 기준이 자동으로 반영된다. 최신 정보 입력자체는 외부 데이터나 관리자를 통해 이뤄지며 이 기술은 이런 데이터가 갱신된 이후 평가 전반을 자동으로 수행하는 구조다.
여기에 연구팀은 최종 답의 정확성 판단뿐만 아니라 답변과정에서 제시된 날짜나 기간의 논리적 타당성까지 검증하는 지표를 새롭게 도입했다.
이로 겉보기에는 정답처럼 보이지만 시간적 근거가 잘못된 '시간 환각(Temporal Hallucination)' 현상을 기존 대비 평균 21.7% 이상 더 정확하게 탐지하는 성과를 거뒀다.
이 기술을 적용하면 정보변경 시 DB만 갱신하면 되기 때문에 평가유지 비용을 절감할 수 있으며 입력 데이터량 역시 기존 대비 평균 51% 줄어드는 효과를 보였다.
이번 연구결과 이달 열리는 인공지능 분야 최고 권위 학술대회인 'ICLR 2026'에서 발표될 예정이다. KAIST 김소연 박사과정이 제1저자로 참여했고 마이크로소프트연구소의 진동 왕(Jindong Wang과 싱 시에(Xing Xie) 연구원이 공동 저자로 참여했다.
황의종 교수는 "이 연구는 고전적인 데이터베이스 설계 이론이 최신 인공지능의 신뢰성 문제를 해결하는 데 중요한 역할을 할 수 있음을 보여준 사례"라며 "방대한 전문 데이터를 평가 자원으로 전환, 향후 의료·법률 등 다양한 분야의 인공지능 성능 검증에 실질적인 기반이 될 것으로 기대한다"고 말했다.
◎공감언론 뉴시스 kys0505@newsis.com