[주목! 이사람]이정수 플리토 대표 "AI용 어휘 '말뭉치', 국가표준데이터 구축한다"

기사등록 2018/07/30 09:54:00

"AI 산업 커지면, 데이터 저작권 이슈가 불거질 것"

"아이들의 음성이 불법적으로 팔리고 있어"

플리토-NIA, 음성·언어 데이터(말뭉치) 등 국가표준데이터 구축한다

사업비 1/5로 줄이고, 데이터 양은 5배 이상 많이 확보

【서울=뉴시스】오동현 기자 = "플리토가 당장 손해를 보더라도 국가 산업의 경쟁력이 높아지길 바랍니다."

통합 번역 플랫폼 플리토가 한국정보화진흥원과 함께 음성·언어 데이터(말뭉치) 등 공공 데이터 구축 사업에 나선다. 공식 사업명은 '다국어 5종의 음성과 영어대역 문장 데이터베이스(DB) 구축 및 개방 사업'이다.

최근 서울 삼성동 플리토 사무실에서 만난 이정수 대표는 "연말까지 구축되는 국가표준데이터를 신규 업체들이 활용해 국가 산업의 경쟁력이 높아지길 바란다"고 밝혔다.

플리토는 11억2500만원에 공공 데이터 구축 사업을 수주했다. 플리토의 플랫폼과 기술로 사업비는 기존 구축 가격의 1/5로 줄었다. 반면 데이터 양은 5배 이상 많이 확보하게 됐다.

이정수 대표는 "원래 데이터 개당 가격은 1000원이다. 기본적인 인공지능(AI) 번역 엔진을 흉내라도 내려면 100만 데이터가 필요하다. 결국 최소한 10억원의 사업비가 든다. 그러다 보니 스타트업들이 이 시장에 뛰어들기 어렵다"고 말했다.

그는 "반면 해외의 경우 작은 스타트업이 AI 번역에 뛰어들고 있다. 정부가 무료로 데이터를 나눠주는 역할을 하고 있기 때문이다. 이걸 우리 정부도 해야겠다 생각해서 표준데이터 공공 구축에 나선 것"이라고 설명했다.

이 대표는 대원외고와 고려대 경영학과를 졸업했으며, 어린 시절부터 오랜 해외 체류 경험을 통해 갖게 된 언어에 대한 관심을 살려 이미 대학 재학 시절에 플리토의 모태가 되는 크라우드소싱 번역서비스 'Flyingcane'을 창업한 바 있다.

졸업 후에는 SK텔레콤에 입사해 투자팀에서 근무했으며, 이후 사내벤처 '두드림'을 운영하기도 했다. 향후 분리된 SK플래닛에서는 M&A 및 벤처기업 발굴 및 투자를 담당했으며, 다양한 시도 끝에 2012년 9월 플리토 기업을 설립하고 서비스를 런칭했다.

 플리토의 경우, 5년 전부터 집단지성 번역 플랫폼을 활용해 양질의 언어 데이터를 축적하고 있다. 최근에는 누적된 언어데이터를 NTT도코모, 바이두, 텐센트, 마이크로소프트, 익스피디아 홈어웨이 등 유수의 글로벌 기업에 판매함으로써 세계 시장 속에서 가능성을 입증하고 있다.

이러한 플리토의 데이터는 공공 데이터 구축 사업을 통해 신규 업체들에게 저렴한 가격으로 제공된다.

이 대표는 "당장엔 손해를 볼 수도 있다. 하지만 플리토 입장에선 미래의 새로운 파트너를 찾을 기회가 될 수도 있다. 국가표준데이터 구축 사업 경험은 해외에 진출할 때도 도움이 될 것"이라고 기대했다.

 또한 "AI에 기본적인 지능을 탑재하려면 100만개의 데이터가 필요하다. 다음 단계는 퀄리티다. 당연히 플리토의 추가 데이터를 구매해서 퀄리티를 높이려고 할 것"이라고 자신했다. 

우리에게 널리 알려진 AI 번역 서비스 제공 업체는 구글과 네이버, 카카오 등이다. 이들 서비스 마다 번역값이 다르게 나오는 이유는 인공신경망 기계번역 기술력의 차이가 아니라 각 번역 서비스 제공 기업이 확보하고 있는 언어데이터의 양과 질의 차이 때문이다.

인공신경망 번역 서비스 알고리즘 설계를 위해서는 기본적으로 100만 쌍 이상의 코퍼스(Corpus 말뭉치)가 필요하며, 세부 영역별로 번역값을 정교화하기 위해서는 더욱 많은 양의 코퍼스 필요하다.

이 대표는 "AI 산업이 지금보다 커지면 데이터 저작권 이슈가 불거질 것"이라며 "미국이나 일본 등 해외의 경우 데이터 저작권 문제에 예민하다. 국내의 경우 아직까지 이 문제에 민감하지 않다보니 해적이나 불법으로 돌아다니는 데이터가 팔리고 있다"고 말했다.

그는 "예를 들어A라는 영어 강의 플랫폼이 있다. 아이들이 공부하면서 'I like to eat an apple'이라고 말했다고 가정하자. 이것이 아무도 모르게 아이들의 음성 데이터가 필요한 업체에 팔린다. 아이는 물론 부모에게 동의를 구하지 않았고 보상도 없었다면, 이는 사실상 절도이며 장물인 것"이라고 지적했다.

그런데 문제는 자신의 음성 데이터가 팔렸는지 아무도 모른다는데 있다. 게다가 우리의 데이터를 AI 엔진이 학습했다는 것 자체를 소명하기도 사실상 불가능하다. 엔진을 만든 내부 직원이 고발하는 경우가 아니라면 말이다.

이 대표는 "플리토가 외국업체와 일할 때면 라이센스 부분에 굉장히 민감하다. 정부도 마찬가지다. 그래서 현재 정부 관계자가 플리토 사무실에 상주해 있다. 내년까지 우리가 데이터를 잘 운영하는지 감리한다"고 밝혔다.

끝으로 이 대표는 자신의 최종 목표에 대해 "플리토를 세계적인 언어 데이터 회사로 성장시키는 것"이라고 말했다. "언어 데이터 하면 '플리토'라는 이야기를 들을 수 있도록, 영속성을 가진 회사가 됐으면 한다"고 웃었다.

 odong85@newsis.com