국제 컴퓨터 비전학회 발표 예정
"3D 콘텐츠 생성, 3차원 장면 이해, 이머시브 서비스 분야 등에서 활용 기대"
이번 연구 결과는 컴퓨터 비전 및 인공지능 분야 세계 최고 권위 학술대회 중 하나인 국제 컴퓨터 비전학회(IEEE/CVF International Conference on Computer Vision, ICCV 2025)에서 발표될 예정이다.
연구팀은 텍스트 입력만으로 3차원 영상 내에서 사용자가 원하는 객체를 정밀하게 분할하고 편집할 수 있는 개방형 어휘(Open-vocabulary) 기반의 3차원 영상 분할 기술을 구현했다.
이번 연구는 서로 다른 시점에 존재하는 객체에 대한 언어 임베딩(Language Embedding)의 일관성을 유지하면서, 새로운 시점의 이미지를 생성할 수 있도록 했다.
언어 임베딩과 가우시안 스플래팅(Gaussian Splatting) 파라미터를 동시에 학습하는 전략을 새롭게 제안한 것이 핵심이다. 또한 대조적 학습(Contrastive Learning) 기법을 접목해 새로운 시점 이미지 내 객체 검출 성능을 크게 향상했다.
한편 이번 논문의 제1저자는 건국대 장성민 석사과정생이며, 교신저자는 김 교수다. 본 연구는 과학기술정보통신부의 연구비 지원을 받아 수행됐다.
◎공감언론 뉴시스 soooo@newsis.com