정다샘 교수 연구팀, 서울대·미국 CMU와 공동 연구
음향·음성 처리 분야 최상위 학술지 'IEEE TASLP'에 논문 게재
음악은 악보 이미지와 심볼릭 악보, 미디(MIDI), 오디오 등의 다양한 '모달리티'로 존재한다. 또한 자동 음악 전사나 광학적 악보 인식과 같은 모달리티 간의 번역 작업은 음악 정보 검색(MIR) 분야의 핵심 과제이다.
기존 연구들이 개별의 번역 과제에 특화된 모델을 제안하는 데에 그친 반면, 연구진은 여러 모달리티 간의 번역 과제를 동시에 학습할 수 있는 범용 모델을 제안했다.
해당 모델은 피아노 악보 인식에서 최저 수준의 기호 오류율을 달성했으며, 세계 최초로 제안된 악보 이미지에서 중간 과정 없이 바로 표현력 있는 연주(expressive performance) 오디오를 생성할 수 있도록 구현됐다.
한편 서울대 및 미국 카네기멜런대(Carnegie Mellon University) 연구팀과 공동으로 수행한 이번 논문은 다음 달 4일부터 스페인 바르셀로나에서 열리는 신호처리 분야 세계 최대 규모 학회 'ICASSP 2026'에서도 발표될 예정이다.
◎공감언론 뉴시스 xieunpark@newsis.com