김희원 교수 연구팀, 지난해 같은 대회에서 3위 기록…올해 '1위'
컴퓨터비전 분야 최우수 국제 학술대회 'CVPR 2025'
이 대회는 CVPR의 세부 프로그램인 'Embodied AI 워크숍' 내에서 개최된 국제 로봇 조작 대회로, AI 에이전트가 실제 환경과 상호작용하며 복잡한 작업을 수행하는 능력을 겨루는 자리다.
연구팀은 김 교수와 미디어학과 석사과정 이상민·박성용 학생으로 구성됐다. 챌린지에는 글로벌미디어학부 4학년 김도원 학생과 메타버스·문화콘텐츠학과 석사과정 임채우 학생이 참여했다.
발표 논문의 제목은 'DynScene: 구현형 인공지능을 위한 동적 로봇 조작 장면의 확장 가능한 생성(DynScene: Scalable Generation of Dynamic Robotic Manipulation Scenes for Embodied AI)'이다.
AI 로봇이 다양한 작업을 학습하려면 대규모의 고품질 데이터가 필수적이지만, 실제 환경에서 이러한 데이터를 수집하는 데는 막대한 시간과 비용이 소요됐다.
이에 연구팀은 텍스트 지시만으로 현실감 있는 로봇 조작 장면을 자동 생성하는 프레임워크 'DynScene'을 개발해, 대량의 학습 데이터를 효율적으로 확보할 수 있는 방법을 제시했다.
'DynScene'은 정적인 장면 구성 데이터와 로봇 동작 데이터를 분리해 생성하던 기존 방식에서 벗어나, 두 요소를 동시에 생성함으로써 데이터의 다양성과 현실감을 높였다.
또한 ▲장면 간 충돌을 피하는 레이아웃 샘플링 ▲물체가 안정적으로 배치되도록 돕는 쿼터니언 양자화 ▲로봇 동작을 유연하게 표현하는 잔차 좌표(residual coordinate) 기반 방식 ▲물리적으로 타당한 장면만을 선별하는 시뮬레이터 기반 검증 등 다양한 핵심 기술이 적용됐다.
챌린지에서는 이 프레임워크를 기반으로 한 로봇 기초 모델(Robotic Foundation Model)이 다양한 작업에서 높은 일반화 성능과 성공률을 달성함을 입증했다.
김 교수는 "이 기술은 기초 모델과 생성 모델을 활용해 적은 양의 학습 데이터만으로도 로봇 조작을 정교하게 구현할 수 있다"고 설명했다.
◎공감언론 뉴시스 soooo@newsis.com