정부, 'AI 데이터 업사이클링' 착수…생성형 AI용으로 데이터 재가공

기사등록 2026/05/07 12:00:00 최종수정 2026/05/07 13:44:24

LLM·피지컬 AI 등 30종 재가공에 30억 투입…데이터 자산 활용도 제고

추론 과정 담은 언어 데이터와 행동 정보 포함된 시각 데이터 등 구축

[서울=뉴시스]윤현성 기자 = 과학기술정보통신부가 기존 인공지능(AI) 허브에 축적된 판별형 AI 중심 데이터를 최신 생성형 AI 기술 환경에 맞춰 고도화하는 'AI 학습용 데이터 업사이클링' 사업을 본격화한다. 691종에 달하는 기존 데이터 자산의 가치를 끌어올려 대규모 언어 모델(LLM)과 피지컬 AI 분야의 경쟁력을 확보한다는 구상이다.

과기정통부와 한국지능정보사회진흥원(NIA)은 지난달 30일 AI 학습용 데이터 업사이클링 사업의 공고를 시작했다고 7일 밝혔다. 업사이클링은 업그레이드와 리사이클링을 합친 용어로, 이번 사업에서는 기존 판별형 AI 중심 라벨링 데이터를 추론 과정과 행동 정보가 포함된 생성형 AI용 데이터로 재가공하는 것을 의미한다.

이번 사업은 LLM과 피지컬 AI 분야를 중심으로 총 30종의 데이터셋을 재가공하며, 약 30억원 규모로 추진된다. 학습 데이터를 새로 구축하는 대신 기존 자산을 활용함으로써 예산 투입 대비 정책 효과를 극대화할 수 있을 것으로 기대된다.

대상 데이터는 2022년까지 구축된 AI 허브 데이터 691종 중 생성형 AI용 데이터로의 확장 가능성과 데이터 활용도 등을 기준으로 전수 분석하고, 외부 전문가 검토를 거쳐 최종 30종을 선정했다.

LLM 데이터 분야에서는 기존 텍스트 데이터를 기반으로 '질문-근거 검토-오류 검증-답변 확정'으로 이어지는 추론 과정을 포함하도록 데이터를 재구성한다.

이를 통해 단일 정답 제시에 그치지 않고, 다양한 판단 경로와 자기 검증 과정을 학습할 수 있는 데이터로 확장한다는 계획이다. 특히 동일한 문제에 대해 복수의 추론 경로를 구성하고 근거 기반 판단 및 오류 수정 과정을 포함함으로써 복잡한 문제 해결이 가능한 추론형 AI 학습 기반을 마련할 예정이다.

피지컬 AI 분야에서는 기존 이미지·영상 데이터를 기반으로 시각 정보(V), 언어 명령(L), 행동 및 제어(A)를 통합한 구조로 데이터를 고도화한다.

이를 통해 단순 객체 인식 수준을 넘어 시간 흐름에 따른 상황 변화와 객체 간 상호작용을 이해하고, 목표 기반 행동을 생성할 수 있는 데이터로 확장할 방침이다. 특히 연속적인 장면 정보와 객체 움직임 데이터를 활용하여 행동 경로와 작업 목표를 정의할 수 있는 형태로 재구성한다.

업사이클링된 데이터는 향후 'AI 허브'를 통해 공개돼 기업, 연구기관, 스타트업 등이 자유롭게 활용할 수 있도록 제공될 예정이다. 과기정통부는 이번 사업으로 데이터의 품질과 적합성을 높이는 동시에 최신 AI 시대에 대응하는 데이터 인프라를 지속 확충해 나갈 방침이다.

최동원 과기정통부 인공지능인프라정책관은 "이번 업사이클링 사업을 통해 적은 비용으로도 최신 생성형 AI 기술 환경에 맞는 학습 데이터를 확보할 수 있을 것"이라며 "이미 축적된 데이터 자산이 낭비되지 않도록 활용 가치를 지속적으로 끌어올려 나가겠다"고 말했다.


◎공감언론 뉴시스 hsyhs@newsis.com