딥시크 “AI 개발, 인간처럼 성과에 보상 원리 적용” 비화 공개

기사등록 2025/09/18 13:57:48

17일 과학저널 네이처에 발표된 논문에서 설명

SCMP “모델의 학습에 숨겨진 심층적인 과학 공개” 평가

[베이징=AP/뉴시스] 베이징의 한 스마트폰 화면에 떠 있는 딥시크 앱 로고. 2025.09.18.

[서울=뉴시스] 구자룡 기자 = 올해 1월 공개된 뒤 ‘인공지능(AI) 차이나쇼크’를 일으켰던 중국 딥시크의 생성협 AI의 개발 비화가 공개됐다.

딥시크 연구팀은 사람에게 성과에 따라 인센티브를 주듯이 AI에게도 문제를 해결하는 경우 보상을 주는 방식이 적용됐다고 밝혀 주목을 받고 있다. 

홍콩 사우스차이나모닝포스트(SCMP)는 17일 “딥시크 AI를 개발한 팀이 모델 개발의 과학적 원리에 대한 비밀을 공개했다”며 “보상을 제공해 AI가 문제를 해결하도록 가르치고 이를 통해 기존 훈련의 장벽을 우회할 수 있도록 했다”고 보도했다.

연구팀은 AI 추론 모델 딥시크-R1 개발 엔지니어들이 해당 모델의 학습에 숨겨진 심층적인 과학을 공개했다고 SCMP는 전했다.

연구팀은 보상을 통한 AI 모델 개발로 인간처럼 추론하도록 가르치는데 있어 비용이 많이 드는 계산 및 확장 장벽을 우회할 수 있었다고 밝혔다.

이같은 내용은 17일 세계적인 과학저널 네이처에 발표한 논문에서 공개됐다.

일반 추론은 인공지능 분야에서 오랫동안 어려운 과제로 여겨져 왔다. 이는 기존 지식과 새로운 정보를 사용해 결론을 형성하는 논리적 과정은 인간 인지의 초석이다.

이를 통해 수학적 문제 해결을 포함한 복잡한 인지 작업을 수행할 수 있어 보다 진보되고 인간과 유사한 AI를 개발하는 데 중요한 요소가 된다.

인간과 유사한 언어를 이해하고 생성할 수 있는 ‘대규모 언어 모델(LLM)’의 개발은 기초 추론 과제에서 주목할 만한 성공을 거두었다.

연구팀은 일반 추론을 통한 학습은 확장성을 제한하고 모델 학습에 인간의 편향을 초래할 수 있는데다 인간 정신의 능력을 넘어서는 우월한 추론 경로 탐색을 제한할 가능성도 있다고 봤다.

이러한 장벽을 극복하기 위해 연구팀은 강화 학습을 사용해 LLM이 자체 진화를 통해 추론 능력을 개발할 수 있도록 했다.

강화 학습은 시행착오를 통해 환경과 상호 작용하는 에이전트 또는 모델에 의해 학습이 촉진되는 과정으로 특정 행동에 대해 페널티 또는 보상을 받는다.

딥시크와 같은 언어 모델에 적용하면 모델이 프롬프트에 대한 응답으로 출력을 생성하면 보상 신호의 형태로 피드백을 받아 응답을 개선할 수 있다.

연구팀은 “모델에 문제를 해결하는 방법을 명시적으로 가르치는 대신, 적절한 인센티브만 제공하면 자율적으로 고급 문제 해결 전략을 개발한다”고 말했다.

이를 통해 초기 모델 훈련에서 인간이 작성한 프롬프트와 이상적인 응답의 데이터베이스를 사용하여 모델을 조정하는 감독된 미세 조정 단계를 우회할 수 있었다.

이런 과정을 거쳐 개발된 딥시크-R1 모델은 수학 및 코딩 경연 대회에서 뛰어난 성능을 달성해 기존 방식으로 훈련된 모델보다 앞서 나갔다고 연구팀은 설명했다.

딥시크-R1-제로 모델은 중국어와 영어를 포함한 여러 언어로 학습돼 언어 혼합과 같은 문제에 직면했다.

연구팀은 이전 모델의 추론 능력을 계승하면서도 인간의 선호도에 더 가깝게 행동을 조정하는 딥시크-R1 모델을 개발하기 위해 추가 교육을 시켜 코딩 및 수학 벤치마크에서도 개선이 나타났다.

연구팀은 추론 기능의 발전으로 잠재적인 윤리적 위험이 있다는 점도 지적했다. 여기에는 모델을 속여 안전 기능을 우회하려는 ‘탈옥 공격’의 가능성도 포함됐다.


◎공감언론 뉴시스 kjdragon@newsis.com