마이크로소프트 리서치 최신 로보틱스 모델
시각언어모델 기반으로 자연어 명령 가능
양손 조작 고도화 위한 최적화 작업 돌입
![[서울=뉴시스] 마이크로소프트 리서치는 자사의 소형언어모델(SLM) '파이(Phi)' 시리즈의 시각 언어 모델(VLA)을 기반으로 개발한 '로-알파'를 선보였다. 사진은 중국 유니트리 G1 휴머노이드 로봇에 피지컬 AI 로-알파 탑재한 모습. (사진=마이크로소프트 제공) *재판매 및 DB 금지](https://img1.newsis.com/2026/01/22/NISI20260122_0002046611_web.jpg?rnd=20260122153611)
[서울=뉴시스] 마이크로소프트 리서치는 자사의 소형언어모델(SLM) '파이(Phi)' 시리즈의 시각 언어 모델(VLA)을 기반으로 개발한 '로-알파'를 선보였다. 사진은 중국 유니트리 G1 휴머노이드 로봇에 피지컬 AI 로-알파 탑재한 모습. (사진=마이크로소프트 제공) *재판매 및 DB 금지
[서울=뉴시스]이주영 기자 = 마이크로소프트가 첫 번째 로보틱스 모델 '로-알파(Rho-alpha, ρα)'를 공개하며 피지컬 AI 시장에 출사표를 던졌다.
마이크로소프트 리서치는 자사의 소형언어모델(SLM) '파이(Phi)' 시리즈의 시각 언어 모델(VLA)을 기반으로 개발한 로-알파를 선보인다고 22일 밝혔다.
지금껏 정해진 조립 라인에서 반복된 작업만 수행하던 로봇이 VLA 모델을 통하면 비구조화된 환경에서 인간과 함께 자율적으로 인지하고 추론하며 행동할 수 있게 된다.
로-알파는 자연어로 명령하면 로봇이 양손을 조작할 수 있도록 제어 신호를 정교하게 변환한다. 마이크로소프트는 기존 VLA에서 사용하는 인지 및 학습 모달리티의 범위를 넘어 확장했다는 점에서 VLA+ 모델로 차별화 된다고 설명했다.
마이크로소프트는 양손 조작 작업의 성능을 높이기 위한 최적화 작업에 돌입했다. 듀얼 암 시스템과 휴머노이드 로봇을 대상으로 평가를 진행 중이며, 올해 상세한 내용을 공개할 예정이다.
![[서울=뉴시스] 마이크로소프트 리서치는 자사의 소형언어모델(SLM) '파이(Phi)' 시리즈의 시각 언어 모델(VLA)을 기반으로 개발한 로-알파를 선보였다. (사진=마이크로소프트 제공) *재판매 및 DB 금지](https://img1.newsis.com/2026/01/22/NISI20260122_0002046616_web.jpg?rnd=20260122153848)
[서울=뉴시스] 마이크로소프트 리서치는 자사의 소형언어모델(SLM) '파이(Phi)' 시리즈의 시각 언어 모델(VLA)을 기반으로 개발한 로-알파를 선보였다. (사진=마이크로소프트 제공) *재판매 및 DB 금지
로-알파에는 촉각 센싱이 새롭게 접목됐다. 실제 로봇의 궤적 데이터와 시뮬레이션 작업을 학습해 시각·언어적 이해가 결합한 촉각 인지 행동을 구현한 것이다.
시물레이션은 촉각 정보와 같이 학습 데이터가 부족한 분야에서 필수적이다. 마이크로소프트는 엔비디아의 로봇 시물레이션 플랫폼 '아이작 심'을 활용해 합성 데이터를 만든다. 이렇게 만들어진 시물레이션 데이터를 실제 시연 데이터셋과 결합해 활용한다.
로-알파는 현장에서 사람의 피드백을 학습해 성능을 계속해서 개선할 수 있도록 설계됐다. 사용자는 3D 마우스와 같은 직관적인 장치로 로봇의 동작을 바로잡을 수 있다. 로-알파는 시스템 작동 중에도 사용자의 피드백을 지속적으로 학습할 수 있다.
마이크로소프트는 "로-알파를 자사 로봇 시스템에 도입하기를 원하는 고객사를 위해 로-알파 리서치 얼리 액세스 프로그램을 진행 중"이라며 "역동적인 상황과 인간의 선호에 맞춰 기민하게 적응하는 로봇은 우리의 일상과 업무 환경에서 더 높은 효용을 제공할 것"이라고 말했다.
◎공감언론 뉴시스 [email protected]
