"악보 인식해 오디오로 만든다"…서강대, '모달리티 범용 모델' 구현

기사등록 2026/04/20 17:15:04

정다샘 교수 연구팀, 서울대·미국 CMU와 공동 연구

음향·음성 처리 분야 최상위 학술지 'IEEE TASLP'에 논문 게재

[서울=뉴시스] (왼쪽 위부터 시계방향) 서강대 아트＆테크놀로지학과 정다샘 교수, 정종민 석사, 조설아 석사과정, 이시훈 박사과정, 김동민 석사. (사진=서강대 제공) 2026.04.20. photo@newsis.com *재판매 및 DB 금지

[서울=뉴시스]박시은 인턴 기자 = 서강대학교는 아트＆테크놀로지학과 정다샘 교수팀이 다양한 음악 데이터를 통합 처리하는 모델을 개발하며, 음향·음성 처리 분야 최상위 학술지인 'IEEE TASLP'에 논문을 게재했다고 20일 밝혔다.

음악은 악보 이미지와 심볼릭 악보, 미디(MIDI), 오디오 등의 다양한 '모달리티'로 존재한다. 또한 자동 음악 전사나 광학적 악보 인식과 같은 모달리티 간의 번역 작업은 음악 정보 검색(MIR) 분야의 핵심 과제이다.

기존 연구들이 개별의 번역 과제에 특화된 모델을 제안하는 데에 그친 반면, 연구진은 여러 모달리티 간의 번역 과제를 동시에 학습할 수 있는 범용 모델을 제안했다.

해당 모델은 피아노 악보 인식에서 최저 수준의 기호 오류율을 달성했으며, 세계 최초로 제안된 악보 이미지에서 중간 과정 없이 바로 표현력 있는 연주(expressive performance) 오디오를 생성할 수 있도록 구현됐다.

[서울=뉴시스] 정다샘 교수 연구팀이 제안한 모델 도식. (사진=서강대 제공) 2026.04.20. photo@newsis.com *재판매 및 DB 금지

아울러 연구진은 이번 연구에서 모델의 학습을 위해 구축한 1300시간 이상의 '악보 이미지-연주 오디오 짝' 데이터셋을 공개하며 음악 정보 검색 연구계에도 기여했다.

한편 서울대 및 미국 카네기멜런대(Carnegie Mellon University) 연구팀과 공동으로 수행한 이번 논문은 다음 달 4일부터 스페인 바르셀로나에서 열리는 신호처리 분야 세계 최대 규모 학회 'ICASSP 2026'에서도 발표될 예정이다.

◎공감언론 뉴시스 xieunpark@newsis.com

이 시간 핫 뉴스

세상에 이런 일이

메뉴
실시간 뉴스	톱기사 히스토리	섹션별 뉴스
지역 뉴스	포토	오늘의 속보