AI 통계엔 '환각'이 있다…고용·인구통계 등에 메타데이터 시범 적용

기사등록 2026/05/12 06:00:00 최종수정 2026/05/12 06:02:25

2029년까지 100억 투입해 'AI 친화 메타데이터' 구축

AI가 데이터처 공식 DB 접근해 올바른 수치 산출토록

올해 경제활동인구조사·지역별고용조사·사망원인통계

·광업제조업조사·인구이동통계 등에 시범 적용 계획

[그래픽=뉴시스] 재판매 및 DB금지. hokma@newsis.com
[세종=뉴시스]박광온 기자 = 국가데이터처가 생성형 인공지능(AI)의 통계 왜곡과 환각(hallucination) 문제를 해결하기 위해 'AI 친화형 통계 메타데이터'를 구축 중인 가운데, 올해는 경제활동인구조사·지역별고용조사·사망원인통계 등 국가승인통계 5종에 이를 시범 적용할 계획인 것으로 확인됐다.

12일 관계부처에 따르면, 데이터처는 오는 2029년까지 총 100억원을 투입해 AI가 데이터처 공식 데이터베이스(DB)를 올바른 방식으로 활용할 수 있도록 하는 'AI 친화형 메타데이터' 기반을 구축하고 있다.

메타데이터는 흔히 '데이터를 설명하는 데이터'로 불린다. 통계 수치만으로는 무엇을 어떤 기준과 방식으로 측정한 것인지 파악하기 어려운데, 메타데이터는 이런 배경 정보를 함께 제공해 데이터의 검색·해석·활용을 돕는 역할을 한다.

현재 데이터처는 지난해 마련한 '통계 메타데이터 온톨로지 DB' 1차 설계 초안을 바탕으로 메타데이터 체계를 고도화하고 있다.

온톨로지는 데이터 간 개념과 관계를 지식그래프 형태로 구조화하는 기술이다. 단순 수치 정보뿐 아니라 산식, 단위, 조사 대상, 지역 범위, 개정 이력 등 통계의 의미 체계를 함께 제시해 AI가 통계 구조를 이해하도록 만드는 방식이다.

이를 통해 AI는 시계열 비교나 추세 분석 과정에서 기준이 서로 다른 데이터를 혼용하는 오류를 줄이고, 보다 정확한 분석 결과를 제시할 수 있게 된다.

특히 올해는 생성형 AI의 통계 해석 정확도를 실제로 검증하기 위해 국가승인통계 5종에 'AI 친화형 메타데이터'를 시범 적용한다는 방침이다.

시범 적용 대상은 ▲경제활동인구조사 ▲지역별고용조사 ▲사망원인통계 ▲광업제조업조사 ▲인구이동통계 등이다.

고용·인구·산업 등 서로 다른 조사 체계와 기준을 가진 대표 통계를 우선 선정해 AI의 통계 이해 성능을 점검하겠다는 취지다.

데이터처 관계자는 "올해 경제활동인구조사 등 5개 통계를 대상으로 시범 온톨로지를 구축해 챗GPT·제미나이 같은 범용 AI와 비교 검증을 진행할 예정"이라며 "AI가 기존에는 정확히 답하지 못했던 질의에 어느 수준까지 신뢰성 있게 답할 수 있는지 실증하는 것이 목표"라고 밝혔다.

이어 이 관계자는 "최종적으로는 국가승인통계 1400종 전체에 AI 친화형 메타데이터를 구축해 2028년 말이나 2029년 초부터 AI가 공식 통계를 안정적으로 활용할 수 있는 환경을 만드는 것이 목표"라고 덧붙였다.

이 같은 AI 친화형 메타데이터 구축 작업은 최근 챗GPT 등 생성형 AI가 각종 웹문서에서 수집한 '출처 불명' 통계를 인용해 잘못된 정보를 제시하는 사례가 반복되고 있는 데 따른 조치다.

생성형 AI가 잘못된 통계를 사실처럼 제시하는 사례가 늘면서 통계 신뢰성 문제도 함께 제기돼 왔다.

가령 '지난 3월 15~29세 청년 고용률이 43.6%였는데 언제 이후로 최대치인지' 물을 경우 공식 DB에 접근해 동일 연령 기준과 시계열 기준이 적용된 과거 통계를 추출·비교해야 하는데, 기존 생성형 AI는 출처가 불명확한 온라인 수치나 서로 다른 기준의 데이터를 혼합해 잘못된 답변을 제시하는 사례가 적지 않았다는 것이다.

데이터처 관계자는 "AI는 아주 똑똑한 박사급 인재와 같지만, 공식 DB에 어떻게 접근해야 할지 방법을 모른다"며 "우리는 AI가 공식 통계 DB를 올바르게 활용할 수 있도록 기준과 구조를 제공하겠다는 것"이라고 설명했다.


◎공감언론 뉴시스 lighton@newsis.com