멀티모달 AI Magma 로봇 혁신 예고

이미지

멀티모달 AI ‘Magma’의 혁신적 도약

최근 발표된 Magma는 다양한 작업을 수행할 수 있는 멀티모달 AI로, UI 탐색부터 로봇 조작까지 폭넓은 기능을 제공합니다. 이 AI는 Microsoft, Maryland 대학교, Wisconsin-Madison 대학교, KAIST, 그리고 Washington 대학교의 연구진이 공동 개발했으며, 전통적인 비전-언어 모델의 한계를 넘어 새로운 가능성을 제시합니다.

  • 멀티모달 AI는 이미지와 텍스트를 결합하여 더욱 직관적이고 다양한 작업을 수행할 수 있습니다. OpenAI의 GPT-4도 이러한 기술을 활용하여 시각정보와 텍스트생성을 담당합니다.
  • 2021년, OpenAI의 DALL-E는 텍스트 설명을 기반으로 이미지를 생성하는 멀티모달 AI 기술을 선보였습니다. 이는 AI가 언어적 요청을 그래픽으로 변환하는데 큰 발전을 일으켰습니다.

향상된 공간 및 멀티모달 이해력

Magma는 기존의 비전-언어 모델이 가진 언어적 지능을 유지하면서도 향상된 공간적 지능을 추가로 제공합니다. 이는 시각-공간 관계를 이해하고, 이를 기반으로 정교한 계획을 세우고 실행할 수 있는 능력을 갖추고 있습니다.

  • 공간적 지능은 로봇이 3D 공간에서 물체를 감지하고 상호작용하는 데 필수적입니다. 특히, 자율주행차는 이러한 기술을 통해 주변 환경을 실시간으로 분석하고 안전한 운행을 보장합니다.
  • 연구에 따르면, 비전-언어 모델의 공간 인식 능력은 드론의 자율비행 및 물류 로봇의 효율적인 경로 계획에 적용 가능하여 산업 생산성을 크게 개선할 수 있습니다.

디지털 및 물리적 세계의 통합 능력

연구진은 Magma 개발의 두 가지 주요 목표를 설정했습니다. 첫째는 디지털 환경과 로봇 작업을 아우르는 통합 능력입니다. 둘째는 언어, 공간, 시간적 지능을 결합하여 이미지, 비디오, 텍스트 입력을 분석하고 이를 구체적인 행동 계획으로 전환하는 것입니다.

  • AI의 디지털 및 물리적 세계 통합 능력은 스마트 홈 시스템에서 활용됩니다. 예를 들어, 구글의 Nest Thermostat는 사용자의 음성 명령을 인식하여 온도를 조절하고, 집안의 에너지 효율을 높이는 역할을 합니다.
  • 2020년 기준, IoT 기기의 세계 시장 규모는 약 248조 원으로 추정되며, AI와 IoT의 통합은 이러한 기기들의 상호작용을 더욱 원활하게 하여 시장 규모를 더 확장할 수 있을 것으로 예상됩니다.

새로운 사전 훈련 프레임워크: SoM과 ToM

Magma는 Set-of-Mark (SoM)과 Trace-of-Mark (ToM)라는 두 가지 핵심 패러다임을 통해 높은 수준의 능력을 발휘합니다. SoM은 정적인 이미지에서 행동을 구체화하는 데 중요한 역할을 하며, ToM은 동적 환경에서의 행동 계획을 훈련합니다.

  • SoM 프레임워크는 고정된 이미지 내의 중요한 요소를 식별하고 이를 바탕으로 행동을 예측하는 데 사용됩니다. 이는 CCTV 분석 등 보안 시스템에 효과적으로 적용됩니다.
  • ToM은 시간적 패턴 인식 능력을 향상시키며, 이는 비디오 스트리밍 서비스에서 사용자 선호도 예측 및 추천 알고리즘 개선에 기여할 수 있습니다.

다양한 데이터셋으로 강화된 훈련

연구진은 Magma의 멀티모달 역량을 강화하기 위해 다양한 형태의 데이터를 수집했습니다. 교육 비디오, 로봇 조작 데이터셋, UI 탐색 데이터 등을 활용하여 Magma를 훈련시켰습니다.

  • 데이터의 다양성은 AI 모델의 예측 정확도와 학습 능력 향상에 기여합니다. 실제로 ImageNet 챌린지에서의 데이터셋은 컴퓨터 비전 모델 발전에 크게 기여하였습니다.
  • 최근 보고서에 따르면, AI에 사용되는 학습 데이터셋의 양이 1TB를 초과하는 경우, 모델의 정확도는 85% 이상 향상될 수 있습니다. 이는 대규모 데이터셋의 중요성을 증명합니다.

로봇 조작 및 UI 탐색의 최첨단 성능

Magma는 로봇의 물체 픽업 및 부드러운 물체 조작 작업에서 최첨단 성능을 입증했습니다. 또한, 웹 및 모바일 UI 상호작용에서도 뛰어난 정밀도를 보여줍니다.

  • 2021년 기준, 물류 및 제조업에서의 로봇 사용 증가로, 로봇의 정밀한 물체 조작 기술 수요는 15% 성장했습니다. 이는 AI 기술이 산업 현장에서 매우 중요한 요소임을 보여줍니다.
  • UI 탐색의 자동화는 고객 서비스 산업에서 주목받고 있습니다. 챗봇과 AI 기반 UI 탐색 기능은 고객 경험을 향상시키고, 처리 시간을 줄여 고객 만족도를 높이는 데 중요한 역할을 합니다.

공간 추론 및 비디오 질의 응답 능력

Magma는 복잡한 평가에서 다른 모델보다 뛰어난 공간 추론 능력을 발휘했으며, 비디오 관련 작업에서도 탁월한 성능을 자랑합니다.

  • 공간 추론은 인공지능이 로봇 청소기와 같은 홈 디바이스에서 효과적으로 경로를 계획하고 장애물을 피하는 데 활용됩니다.
  • 한 연구에서는 비디오 질의 응답 시스템이 교육 분야에서 사용될 때, 학생들의 학습 효율이 30% 이상 증가할 수 있음을 발견하였습니다. 이는 AI가 교육 방식의 혁신을 이끌 수 있음을 시사합니다.

AI의 사용성을 한 단계 끌어올리다

Magma는 AI의 사용성을 반응적이고 단일 기능에서 벗어나 프로액티브하고 다기능적으로 전환시킵니다. 이는 인간과 유사한 능력을 향한 중요한 발걸음입니다.

  • AI의 프로액티브 기능은 스마트폰 비서 예시에서 확인할 수 있습니다. 애플 시리와 구글 어시스턴트는 사용자가 명령을 내리기 전 사용자 습관을 바탕으로 추천 서비스 제공하여 휴대폰 사용 경험을 극대화합니다.
  • 미국 소비자 기술 협회의 설문조사에 따르면, 2022년 AI 제품 구매자 중 45%가 다기능 지원을 위해 AI 솔루션을 선택하는 것으로 나타났습니다. 이는 AI의 다기능적 발전이 소비자 만족도를 높일 수 있음을 보여줍니다.

미래의 응용 분야 전망

연구진은 이미지/비디오 자막 작성, 고급 질의 응답, 복잡한 네비게이션 시스템, 로봇 작업 자동화 등 다양한 분야에 Magma를 적용할 계획입니다. 이는 디지털 및 물리적 도메인을 통합하는 AI의 가능성을 보여줍니다.

  • 이미지는 로봇산업에서 물체 인식 및 분류에, 비디오는 자율주행차의 경로 계획에 활발히 사용되고 있습니다. 이는 AI의 멀티모달 기능이 미래 산업에 필수적인 역할을 할 수 있음을 시사합니다.
  • Frost & Sullivan 의 보고서에 따르면, 2025년까지 인간과 상호작용을 고려한 AI의 적용 시장은 연평균 20% 성장할 것으로 예상됩니다. 이는 AI가 산업과 생활 전반에 걸쳐 빠르게 확산되고 있음을 암시합니다.

출처 : 원문 보러가기