네이버-카카오, 한국어 특화 AI 모델 활용
네이버, 27일 데뷰서 하이퍼클로바 기반 '서치 GPT' 공개 전망
카카오, 코GPT 기반 '코챗GPT' 상반기 공개
챗GPT 등 외산 AI는 아직 한국어 응답력 부족
[서울=뉴시스] 오동현 기자 = '챗GPT'와 같은 대화형 인공지능(AI) 챗봇이 우리의 일상에 스며들고 있다. 이런 시대적 흐름에 발 맞춰 국내 정보기술(IT) 대기업 네이버와 카카오가 한국어 특화 AI 서비스 구현에 속도를 올린다. 그동안 쌓아온 AI 기술력을 바탕으로 실생활에 밀접한 '한국형 챗GPT'를 연내 선보이겠다는 구상이다.
최근 미국 AI 연구기업 오픈AI의 '챗GPT'와 마이크로소프트(MS)의 AI 챗봇 '빙(Bing)'이 검색의 패러다임을 바꿀 게임처로 주목받고 있지만, 현 단계에서 우리 국민이 제대로 활용하기엔 다소 제약이 따른다. '챗GPT'와 '빙' 모두 영어에 비해서 한국어 응답 수준이 상대적으로 떨어진다. 당연하다. 개발로직 자체가 영문이고 학습 데이터도 영문이다. 한국어에 대한 이해력이 부족하다.
이에 네이버와 카카오가 챗GPT 대항마로 자신하는 이유도 여기에 있다. 그간 축적한 한국어 데이터셋이 해외 사업자들보다 압도적으로 많다. 이를 기반으로 대화형 AI 서비스를 고도화할 경우 충분한 승산이 있다는 기대다.
네이버는 오는 27일 개최되는 연례 개발자 컨퍼런스 데뷰(DEVIEW)에서 '서치GPT' 기술 로드맵을 발표할 전망이다.
서치GPT는 '챗GPT'나 마이크로소프트 '빙'과 마찬가지로, 기존의 키워드 검색 방식 대신 사용자가 질문하면 AI 챗봇이 대화체로 답변하고 관련된 정보를 제공하는 서비스다. 네이버의 고품질 검색 데이터와 기술을 접목할 것으로 보인다.
서치GPT는 초거대 AI '하이퍼클로바'를 활용한다. 하이퍼클로버는 국내 최초 한국어 특화 모델로, 매개변수 2040억개를 자랑한다.
네이버는 이미 지난해 9월부터 AI 기술로 검색 기술을 고도화하는 '오로라 프로젝트'를 추진해왔다. 복잡한 형태의 검색어를 입력해도 최적의 결과를 보여주는 것을 목표로 하며 이를 더 발전시켜 실제 서비스로 구현하는 것이 '서치GPT'다.
최수연 네이버 대표는 "새로운 검색 트렌드 생성 AI에 대응하겠다"며 "네이버는 한국어로는 고품질 검색 데이터를 가장 많이 보유하고 있고, 거대 AI 모델로는 세계 정상급 기술이라고 자부한다"고 말했다.
최근 미국 AI 연구기업 오픈AI의 '챗GPT'와 마이크로소프트(MS)의 AI 챗봇 '빙(Bing)'이 검색의 패러다임을 바꿀 게임처로 주목받고 있지만, 현 단계에서 우리 국민이 제대로 활용하기엔 다소 제약이 따른다. '챗GPT'와 '빙' 모두 영어에 비해서 한국어 응답 수준이 상대적으로 떨어진다. 당연하다. 개발로직 자체가 영문이고 학습 데이터도 영문이다. 한국어에 대한 이해력이 부족하다.
이에 네이버와 카카오가 챗GPT 대항마로 자신하는 이유도 여기에 있다. 그간 축적한 한국어 데이터셋이 해외 사업자들보다 압도적으로 많다. 이를 기반으로 대화형 AI 서비스를 고도화할 경우 충분한 승산이 있다는 기대다.
네이버는 오는 27일 개최되는 연례 개발자 컨퍼런스 데뷰(DEVIEW)에서 '서치GPT' 기술 로드맵을 발표할 전망이다.
서치GPT는 '챗GPT'나 마이크로소프트 '빙'과 마찬가지로, 기존의 키워드 검색 방식 대신 사용자가 질문하면 AI 챗봇이 대화체로 답변하고 관련된 정보를 제공하는 서비스다. 네이버의 고품질 검색 데이터와 기술을 접목할 것으로 보인다.
서치GPT는 초거대 AI '하이퍼클로바'를 활용한다. 하이퍼클로버는 국내 최초 한국어 특화 모델로, 매개변수 2040억개를 자랑한다.
네이버는 이미 지난해 9월부터 AI 기술로 검색 기술을 고도화하는 '오로라 프로젝트'를 추진해왔다. 복잡한 형태의 검색어를 입력해도 최적의 결과를 보여주는 것을 목표로 하며 이를 더 발전시켜 실제 서비스로 구현하는 것이 '서치GPT'다.
최수연 네이버 대표는 "새로운 검색 트렌드 생성 AI에 대응하겠다"며 "네이버는 한국어로는 고품질 검색 데이터를 가장 많이 보유하고 있고, 거대 AI 모델로는 세계 정상급 기술이라고 자부한다"고 말했다.
카카오 AI 전문 연구 계열사 카카오브레인도 '코(Ko)챗GPT(가칭)'을 공개할 계획이다. 올 상반기 전후로 한국어 특화 AI 모델 '코GPT-3.5' 버전을 공개하고, 이를 기반으로 하는 한국어 특화 챗봇 '코챗GPT'를 출시하는 것이 목표다.
공개된 코GPT는 60억 개의 파라미터(매개변수)와 2000억 개 토큰의 한국어 데이터를 학습했다. 코GPT는 오픈AI의 GPT-3를 기반으로 자체 개발한 한국어 특화 버전이다. 코챗GPT의 기반이 되는 코GPT-3.5 역시 매개변수가 60억 개로 이전 모델과 변함이 없을 전망이다.
챗GPT와 같은 AI 기반 모델은 매개변수가 많을수록 더 많은 데이터를 처리해 AI 성능을 높일 수 있다. 챗GPT는 GPT-3.5 모델을 기반으로 탄생했으며, 1750억 개의 매개변수를 자랑한다. 오픈AI는 연내 GPT-4 모델을 공개하겠다고 밝힌 상황이다.
이처럼 카카오는 경쟁 AI 모델 대비 적은 규모의 매개변수를 활용하지만 효율성 측면에서 비용 경쟁력으로 차별화를 꾀할 방침이다. 카카오 관계자는 "내부에서 검증한 결과 적은 수의 매개변수로도 경쟁사 못지 않은 성능이 입증됐다"며 "코챗GPT는 기존의 매개변수만으로도 한국어 특화 서비스를 잘 구현하기에 충분한 것으로 판단하고 있다"고 전했다.
카카오는 '코GPT'를 활용해 버티컬 AI 서비스를 선보일 계획이다. 홍은택 카카오 대표는 "초거대 AI 모델은 혁신적인 아이디어에 의해 차별화되는 것이 아니라, 모델의 크기와 품질이 좌우하고 풍부한 자본력과 기술력을 가진 글로벌 기업에게 절대적으로 유리한 싸움"이라며 "글로벌 기업들과 같은 선상에서 경쟁하기 보다는 카카오브레인이 갖고 있는 한국어 특화 AI 모델인 코GPT를 활용해 날카로운 버티컬 AI 서비스에 집중하겠다"고 밝혔다.
공개된 코GPT는 60억 개의 파라미터(매개변수)와 2000억 개 토큰의 한국어 데이터를 학습했다. 코GPT는 오픈AI의 GPT-3를 기반으로 자체 개발한 한국어 특화 버전이다. 코챗GPT의 기반이 되는 코GPT-3.5 역시 매개변수가 60억 개로 이전 모델과 변함이 없을 전망이다.
챗GPT와 같은 AI 기반 모델은 매개변수가 많을수록 더 많은 데이터를 처리해 AI 성능을 높일 수 있다. 챗GPT는 GPT-3.5 모델을 기반으로 탄생했으며, 1750억 개의 매개변수를 자랑한다. 오픈AI는 연내 GPT-4 모델을 공개하겠다고 밝힌 상황이다.
이처럼 카카오는 경쟁 AI 모델 대비 적은 규모의 매개변수를 활용하지만 효율성 측면에서 비용 경쟁력으로 차별화를 꾀할 방침이다. 카카오 관계자는 "내부에서 검증한 결과 적은 수의 매개변수로도 경쟁사 못지 않은 성능이 입증됐다"며 "코챗GPT는 기존의 매개변수만으로도 한국어 특화 서비스를 잘 구현하기에 충분한 것으로 판단하고 있다"고 전했다.
카카오는 '코GPT'를 활용해 버티컬 AI 서비스를 선보일 계획이다. 홍은택 카카오 대표는 "초거대 AI 모델은 혁신적인 아이디어에 의해 차별화되는 것이 아니라, 모델의 크기와 품질이 좌우하고 풍부한 자본력과 기술력을 가진 글로벌 기업에게 절대적으로 유리한 싸움"이라며 "글로벌 기업들과 같은 선상에서 경쟁하기 보다는 카카오브레인이 갖고 있는 한국어 특화 AI 모델인 코GPT를 활용해 날카로운 버티컬 AI 서비스에 집중하겠다"고 밝혔다.