국내 연구진, 24개 언어 인식할 수 있는 음성인식 기술 개발

기사등록 2022/11/03 10:20:35

ETRI, 세계 주요 언어 최고성능으로 인식하는 기술 확보

올해까지 30개어로 확대, 기술이전도 활발

[대전=뉴시스] ETRI연구진이 24개 음성인식 기술을 이용해 세계 각국 정상의 연설을 실시간으로 자막화하고 있다. *재판매 및 DB 금지
[대전=뉴시스] ETRI연구진이 24개 음성인식 기술을 이용해 세계 각국 정상의 연설을 실시간으로 자막화하고 있다. *재판매 및 DB 금지
[대전=뉴시스] 김양수 기자 = 국내 연구진이 국어는 물론 영어, 중국어, 독일어 등 세계 주요 24개 언어를 인식할 수 있는 음성인식 기술을 개발했다.
 
한국전자통신연구원(ETRI)은 24개 언어를 음성으로 인식하고 문자로 변환할 수 있는 '대화형 인공지능(Conversational AI) 기술'을 개발했다고 3일 밝혔다.
 
이 음성인식 기술의 성능은 구글(Google) 등 글로벌 업체와 비교해 한국어에서는 우위를 보이고 타 언어에서는 대등한 수준이다.

연구진은 ▲자기 지도학습(Self Supervised Learning) ▲인공지능이 가상의 레이블을 자동으로 생성해 지도 학습하는 기술인 의사 레이블 ▲대용량 다국어 사전 학습 모델(Pre-trained Model) ▲음성 데이터의 오디오 데이터 생성(TTS) 증강 기술 등을 통해 다국언어 확장과 높은 음성인식 성능을 확보했다.

또 연구진은 기존에 흔히 활용되던 종단형(End-to-End) 음성인식 기술의 단점을 개선해 활용성을 높였다. 느린 응답속도의 문제는 스트리밍 추론 기술을 개발, 실시간 처리가 가능토록 개선했고 의료와 법률, 과학기술 등 특정한 도메인에 대한 음성인식 특화가 쉽도록 하이브리드 종단형 인식 기술도 적용했다.

종단형(End-to-End) 음성인식은 음향 모델과 언어 모델, 발음 사전 등을 별도로 학습하던 이전의 음성인식 기술에서 통합 학습이 가능토록 개선된 기술로 음성인식 성능이 향상되지만 통합 학습에 따라 응답속도가 느리고 의료나 법률 등 특정 도메인에 특화하기 어려운 단점이 있다.

이에 앞서 ETRI는 지난 2020년 종단형 음성인식 기술을 개발해 30여 개의 국내·외 기업에 음성인식 기술을 이전, 회의록 작성이나 자막 통역, 키오스크, 의료·교육, AI 컨택센터 등 다양한 AI 서비스에 활용되고 있는 중이다.

연구진은 이번 다국어 확대와 응답 속도 지연 해결 등 신기술 적용을 통해 음성인식 기술 활용 범위를 확대, 사업화를 추진하고 올해 안으로 지원 언어를 30여 개로 확장시켜 국내·외 전시 참여와 기업체 설명회를 통해 사업화를 적극 추진할 예정이다.

현재 ETRI는 공공인공지능 오픈 API·DATA 서비스 포털을 통해 11개 언어의 음성인식 서비스를 제공하고 있다. 이번 연구성과를 기반으로 24개 언어로 음성인식 서비스를 확대해 중소·벤처기업, 학교, 개인 개발자 등 다양한 사용자들에게 다국어 음성인식 관련 사업 기회를 제공할 예정이다.

ETRI 복합지능연구실 김상훈 책임연구원은 "국내기술로 글로벌 선도업체와 대등한 수준의 음성인식 기술을 개발했다는 데 의의가 있다"면서 "이 기술이 우리나라 인공지능 분야의 글로벌 경쟁력을 높이고 기술자주권을 확보하는 데 큰 도움이 되길 바란다"고 말했다.


◎공감언론 뉴시스 [email protected]
button by close ad
button by close ad

국내 연구진, 24개 언어 인식할 수 있는 음성인식 기술 개발

기사등록 2022/11/03 10:20:35 최초수정

이시간 뉴스

많이 본 기사