中 AI 복사?…업스테이지, 공개 검증으로 돌파 "독자 기술 자신감"(종합)

기사등록 2026/01/02 18:41:34 최종수정 2026/01/02 19:14:24

고석현 사이오닉AI 대표, 업스테이지에 중국 모델 복사 의혹 제기

김성훈 업스테이지 대표, 공개 검증 갖고 반박 "공개 사과하라"


[서울=뉴시스]오동현 기자 = 정부 주도 '독자 인공지능(AI) 파운데이션 모델 프로젝트'에 참여한 업스테이지가 중국 AI모델을 복사해 미세 조정한 것 아니냐는 의혹에 대해 "사실관계가 확인되지 않은 일방적 주장은 위험하다"며 강경 대응 방침을 밝혔다.

김성훈 업스테이지 대표는 2일 오후 서울 강남구 한국과학기술회관에서 업계 관계자들을 초청해 자사 모델에 대한 공개 검증을 진행했다. 유튜브를 통해서도 생중계됐는데, 1500여명 이상이 시청하며 업계의 주목을 받았다.

이번 의혹은 지난 1일 고석현 사이오닉AI 대표가 자신의 소셜미디어(SNS)에 업스테이지의 '솔라 오픈 100B'가 중국 지푸(Zhipu) AI의 'GLM-4.5-에어'에서 파생된 모델이라는 깃허브 리포트를 게재하면서 불거졌다.

고 대표는 "국민 세금이 투입된 프로젝트에서 중국 모델을 복사해 미세 조정한 결과물로 추정되는 모델이 제출됐다"며 "상당히 큰 유감"이라고 밝혔다.

'솔라 오픈 100B'와 'GLM-4.5-에어'의 레이어별 파라미터 유사도를 측정한 결과, AI 모델 신경망 중 특정 부분(LayerNorm)이 중국 모델과 96.8% 동일하다는 점을 지적했다.

이어 이날 오전에는 "이번 이슈 이후인 몇 시간 전, 솔라 모델의 공개된 모델카드에는 공개 라이센스가 완화돼 변경되고 중국 지푸 사의 라이선스가 병기돼 추가됐다"며 "저는 소버린 AI가 무엇인가에 대한 근원적인 물음을 가지고 있다. 과연 국외, 특히 중국 모델 코드와 구조를 잘 학습하는 것이 국가적인 AI 사업의 방향으로 타당한지 의문을 제기한다"고 재차 지적했다.

앞서 업스테이지는 지난달 30일 '솔라 오픈 100B'를 공개하며 '프롬 스크래치(From Scratch)'로 개발했다고 밝혔다. '프롬 스크래치'는 데이터 수집과 모델 아키텍처 설계, 학습, 튜닝까지 모든 것을 자체적으로 수행하는 방식이다.

이에 김성훈 업스테이지 대표는 즉각 반박했다. 그는 SNS를 통해 "솔라 오픈 100B가 중국 모델을 복사해 미세 조정을 한 것으로 추정된다는 글에 대해 사실과 다름을 알려드린다"며 "업스테이지는 명백히 프롬 스크래치 방식으로 학습했다"고 강조했다.

특히 그는 이날 오후 공개 검증을 예고하며 "저희가 학습에 사용한 중간 체크포인트(Checkpoint)와 '실험 로그(WandB)'를 모두 공개할 예정이다. 명확한 검증 절차를 공개해 사실 관계를 바로잡도록 할 것"이라고 밝혔다.

이와 함께 김 대표는 '솔라 오픈 100B'가 'GLM-4.5-에어'에서 파생되지 않았다는 주장의 리포트를 공개했다.

해당 리포트에는 "두 모델과 마이크로소프트의 '파이(Phi)' 모델의 레이어놈(LayerNorm) 파라미터를 비교한 결과, 모두 0.9 이상의 높은 코사인 유사도(cosine similarity)를 보인다"며 "'솔라 오픈 100B'가 'GLM-4.5-에어'에서 파생된 모델이라면, 'GLM-4.5-에어' 역시 'Phi-3.5-MoE-instruct'에서 파생된 모델이어야 한다"는 주장이 담겼다.

임성빈 고려대 통계학과 교수도 업스테이지 측 반박 주장에 힘을 실었다. 그는 "두 초거대언어모델(LLM)의 레이어놈 파라미터의 코사인 유사도가 유사하다고 해서 '프롬 스크래치 학습이 아니다'라고 주장하는 것은 통계적으로 다소 무리가 있다"고 지적했다.

임 교수는 "레이어놈의 러닝 다이나믹스(learning dynamics) 때문"이라며 "레이어놈의 초기 설정(initialization)이 1로 초기화되는데, layer(층)가 깊어질수록 1 근처에서 작은 변화(perturbation)만 일어나기 때문에 코사인 유사도 수치만 보면 0.9 이상 나오기 쉽다. 그러므로 이 경우 '프롬 스크래치가 아니다'라고 결론을 내리는건 주의해야 한다"고 설명했다.

이날 공개 검증 자리에서도 김 대표는 임 교수 의견과 일치하는 기술적 반박 주장을 펼쳤다. 라이선스를 뒤늦게 병기한 점에 대해선 "추론 코드는 모델 웨이트 자체가 아니며 사용자 편의를 위해 제공하는 것"이라며 "12월 31일 모델 웨이트 제출 마감 시한에 마지막 1분까지 성능을 높이기 위해 학습에 매진하느라 리드미 등 부수적인 파일 정리가 늦어졌으며 이후 수정 과정을 거친 것"이라고 설명했다.

특히 의혹을 제기한 고 대표에게 공개 사과를 요구했다. 그는 "커뮤니티의 건강한 토론은 환영하지만, 사실관계가 확인되지 않은 일방적 주장은 위험하다"며 "통계적 오류가 명확히 밝혀진 부분에 대해 상대측이 실수를 인정하고 공개적으로 사과해 줄 것을 부탁한다"고 말했다.

정부는 오는 6일부터 일주일간 '독자 AI 파운데이션 모델 프로젝트'에 참여한 업스테이지, SK텔레콤, 네이버클라우드, NC AI, LG AI연구원 등 5개 컨소시엄에 대한 2차 심사를 진행할 예정이다.

이에 김 대표는 "정부 과제 심사가 진행되는 민감한 시기에 단정적인 표현으로 상처를 준 점에 대해 강경하게 대응할 예정"이라고 밝혔다. 그러면서도 "이번 이슈가 오히려 업스테이지가 '진짜 프롬 스크래치로 모델을 만들 수 있는 실력이 있음'을 보여주는 자신감의 계기가 됐다"고 덧붙였다.

한편, 이번 의혹을 제기한 고 대표와 김 대표는 네이버 클로바 팀에서 한솥밥을 먹었던 동료다. 김 대표가 2020년 퇴사하기 전까지 네이버에서 AI 서비스 개발을 함께 했다. 이후 고 대표는 사이오닉AI, 김 대표는 업스테이지를 창업했다.


◎공감언론 뉴시스 odong85@newsis.com