"AI 모델 훈련 위해 깃허브 계정 생성 후 공유 요청"
[서울=뉴시스] 박광온 기자 = 구글·오픈AI 등과 생성형 인공지능(AI) 경쟁을 펼치고 있는 미국 최대 이커머스 업체 아마존이 직원들에게 마이크로소프트(MS) 클라우드 플랫폼에 가입해 데이터를 수집하도록 지시한 것으로 전해진다.
비즈니스인사이더는 13일(현지시각) 아마존 직원 내부에 공유된 메모를 입수해 "아마존은 최근 직원들에게 MS의 깃허브(GitHub) 소프트웨어 개발 플랫폼에 가입하고 계정을 공유해, 깃허브에서 데이터를 더 빨리 스크랩할 수 있도록 지시했다"고 보도했다.
깃허브는 세계 최대 오픈소스 코드 공유 플랫폼으로, 세계 각지의 개발자들이 소프트웨어를 만들기 위한 소스코드를 공유·저장하는 클라우드 공간이다. 2008년 설립된 후 지난 2018년 MS가 인수했다.
이 매체가 입수한 메모엔 지난달 아마존의 범용인공지능(AGI·사람과 유사한 수준 또는 그 이상의 지능을 갖춘 AI)그룹이 AI 모델 훈련을 위해선 "깃허브의 정량적, 질적 메타데이터가 필요하다"고 적혀 있었다. 메타데이터란 데이터에 대한 구조화된 데이터로, 다른 데이터를 설명해 주는 데이터다.
특히 깃허브에는 1억5000만개 이상의 공개 데이터 저장소가 있는데, 단일 깃허브 계정은 시간당 5000개의 데이터 수집만 요청할 수 있다.
계정 제한으로 인해 깃허브 내 정보를 전부 스크랩하는 데 시간이 너무 오래 걸린다는 점을 아마존은 우려한 것이다.
이 문제를 해결하기 위해 아마존 AGI팀과 경영진은 직원들에게 새로운 깃허브 계정을 생성하고 이를 회사와 공유하도록 요청했다고 한다.
구체적으로 메모에는 "단일 계정으로 이 모든 것을 가져오는 데 수년이 걸릴 것"이라며 "메타데이터 수집 속도를 높이기 위해 팀원들에게 깃허브 계정을 만들고 API(응용프로그램 인터페이스) 키를 공유하도록 요청한다"고 적혀있다.
이를 통해 아마존은 이 모든 계정을 동시에 운영할 수 있어 데이터 수집 시간을 단 몇 주로 단축할 수 있다고도 메모에 적었다.
아마존은 이 같은 깃허브 데이터 수집이 회사의 법률 및 보안 팀 모두에게 승인받은 것이라고 말했다고 한다. 또 아마존은 지침을 준수함으로써 깃허브의 속도 제한을 따르고 계정이 차단되는 것을 방지하고 있다고 했다.
다만 깃허브와 MS 대변인은 이에 대한 비즈니스인사이더의 논평 요청에 응답하지 않았다.
이런 아마존의 데이터 수집 움직임은 AI 경쟁을 벌이고 있는 테크 회사들 사이에서 '데이터에 대한 극심한 갈증'을 강조한다고 이 매체는 말했다.
아마존은 지난 3월 AI 데이터센터에 향후 15년간 1500억 달러(약 206조9400억원)를 투자하겠다고 발표했으며, 오픈AI의 경쟁사인 미 AI 기업 앤스로픽(Anthropic)에 40억달러(약 5조4000억원)를 투자하는 등 최근 'AI 주도권' 확보 경쟁에 뛰어들었다.
특히 아마존은 계열사 아마존웹서비스(AWS)의 클라우드 사업에 AI 서비스를 접목하기 위해 노력하고 있다. 아울러 아마존은 음성 비서 '알렉사'를 AI 버전으로 업그레이드해 대화형 버전을 올해 말 내놓으려 분투하고 있다.
이처럼 AI 시장에서 앞서가려는 아마존은 더 많은 고품질 데이터를 필요로 하는 것이다. 그러나 정보의 공급이 제한돼 있는지라, 테크 기업들 사이에서 '데이터 전쟁'이 벌어지고 있는 것이라고 비즈니스인사이더는 평했다.
구체적으로 이 매체는 "아마존의 경우 아직 출시되지 않은 새 AI 모델을 더욱 지능적이고 인간과 유사하도록 교육하기 위해선 더 많은 고품질 데이터가 필요하다"며 "아마존은 생성형 AI 분야에서 경쟁사인 MS, 구글, 메타를 따라잡기 위해 노력하고 있기 때문"이라고 말했다.
◎공감언론 뉴시스 [email protected]
비즈니스인사이더는 13일(현지시각) 아마존 직원 내부에 공유된 메모를 입수해 "아마존은 최근 직원들에게 MS의 깃허브(GitHub) 소프트웨어 개발 플랫폼에 가입하고 계정을 공유해, 깃허브에서 데이터를 더 빨리 스크랩할 수 있도록 지시했다"고 보도했다.
깃허브는 세계 최대 오픈소스 코드 공유 플랫폼으로, 세계 각지의 개발자들이 소프트웨어를 만들기 위한 소스코드를 공유·저장하는 클라우드 공간이다. 2008년 설립된 후 지난 2018년 MS가 인수했다.
아마존, 직원들에 깃허브 계정 생성 후 공유 요청…"AI 모델 훈련 위해 메타데이터 필요"
특히 깃허브에는 1억5000만개 이상의 공개 데이터 저장소가 있는데, 단일 깃허브 계정은 시간당 5000개의 데이터 수집만 요청할 수 있다.
계정 제한으로 인해 깃허브 내 정보를 전부 스크랩하는 데 시간이 너무 오래 걸린다는 점을 아마존은 우려한 것이다.
이 문제를 해결하기 위해 아마존 AGI팀과 경영진은 직원들에게 새로운 깃허브 계정을 생성하고 이를 회사와 공유하도록 요청했다고 한다.
구체적으로 메모에는 "단일 계정으로 이 모든 것을 가져오는 데 수년이 걸릴 것"이라며 "메타데이터 수집 속도를 높이기 위해 팀원들에게 깃허브 계정을 만들고 API(응용프로그램 인터페이스) 키를 공유하도록 요청한다"고 적혀있다.
이를 통해 아마존은 이 모든 계정을 동시에 운영할 수 있어 데이터 수집 시간을 단 몇 주로 단축할 수 있다고도 메모에 적었다.
아마존은 이 같은 깃허브 데이터 수집이 회사의 법률 및 보안 팀 모두에게 승인받은 것이라고 말했다고 한다. 또 아마존은 지침을 준수함으로써 깃허브의 속도 제한을 따르고 계정이 차단되는 것을 방지하고 있다고 했다.
다만 깃허브와 MS 대변인은 이에 대한 비즈니스인사이더의 논평 요청에 응답하지 않았다.
"테크 기업들 사이서 '데이터 전쟁' 벌어지고 있어"
아마존은 지난 3월 AI 데이터센터에 향후 15년간 1500억 달러(약 206조9400억원)를 투자하겠다고 발표했으며, 오픈AI의 경쟁사인 미 AI 기업 앤스로픽(Anthropic)에 40억달러(약 5조4000억원)를 투자하는 등 최근 'AI 주도권' 확보 경쟁에 뛰어들었다.
특히 아마존은 계열사 아마존웹서비스(AWS)의 클라우드 사업에 AI 서비스를 접목하기 위해 노력하고 있다. 아울러 아마존은 음성 비서 '알렉사'를 AI 버전으로 업그레이드해 대화형 버전을 올해 말 내놓으려 분투하고 있다.
이처럼 AI 시장에서 앞서가려는 아마존은 더 많은 고품질 데이터를 필요로 하는 것이다. 그러나 정보의 공급이 제한돼 있는지라, 테크 기업들 사이에서 '데이터 전쟁'이 벌어지고 있는 것이라고 비즈니스인사이더는 평했다.
구체적으로 이 매체는 "아마존의 경우 아직 출시되지 않은 새 AI 모델을 더욱 지능적이고 인간과 유사하도록 교육하기 위해선 더 많은 고품질 데이터가 필요하다"며 "아마존은 생성형 AI 분야에서 경쟁사인 MS, 구글, 메타를 따라잡기 위해 노력하고 있기 때문"이라고 말했다.
◎공감언론 뉴시스 [email protected]