회사 측에 따르면 VLM 기술은 컴퓨터 비전과 자연어 처리를 결합해 실시간으로 다중 객체를 탐지·추적하는 첨단 기술이다. 사용자가 입력한 텍스트 정보와 영상을 융합해 높은 정확도로 객체를 추적할 수 있다. 기존 객체 탐지·추적 기술은 사전 정의된 특정 객체를 중심으로 동작하는 한계가 있었으나 VLM 기반 기술은 사용자가 텍스트로 입력한 정보를 해석해 원하는 객체를 동적으로 탐지하고 추적할 수 있는 유연성이 특징이다.
최근 실시간 스트리밍 영상 데이터를 활용한 다양한 응용 서비스 수요가 증가하고 있으며, 특히 영상 데이터를 기반으로 한 정밀한 객체 탐지·추적 기술은 보안 감시, 교통, 안전, 제조, 스마트시티 등 다양한 산업 분야에서 필수적인 요소로 자리잡고 있다.
현재 국내 연구기관 및 대학에서는 시각 언어 모델 연구 및 자율주행 및 보안 시스템 적용 연구가 활발히 진행되고 있으며 의료, 보안, 제조업 분야에서도 상용화 기술들이 개발되고 있다. 국내뿐만 구글 렌즈(Google Lens)는 VLM을 활용해 이미지 속 사물 탐지, 번역 서비스를 제공한다. 마이크로소프트(Microsoft)는 애저(Azure) AI를 통해 기업용 VLM 솔루션을 제공하고 있다.
이에이트 관계자는 "VLM 기술 상용화를 통해 실시간 스트리밍 데이터와 AI를 융합한 차세대 영상 분석 시장에서 경쟁력을 확보해 현재 준비 중인 스마트시티 자율주행 서비스에 우선 도입할 예정"이라며 "향후 디지털 트윈 기반 스마트 제조, 물류 등의 분야 적용을 통해 회사 사업 분야를 더욱 확장할 계획"이라고 말했다.
◎공감언론 뉴시스 mrkt@newsis.com