멀티모달 AI Magma 로봇 혁신 예고

멀티모달 AI ‘Magma’의 혁신적 도약

최근 발표된 Magma는 다양한 작업을 수행할 수 있는 멀티모달 AI로, UI 탐색부터 로봇 조작까지 폭넓은 기능을 제공합니다. 이 AI는 Microsoft, Maryland 대학교, Wisconsin-Madison 대학교, KAIST, 그리고 Washington 대학교의 연구진이 공동 개발했으며, 전통적인 비전-언어 모델의 한계를 넘어 새로운 가능성을 제시합니다.

멀티모달 AI는 이미지와 텍스트를 결합하여 더욱 직관적이고 다양한 작업을 수행할 수 있습니다. OpenAI의 GPT-4도 이러한 기술을 활용하여 시각정보와 텍스트생성을 담당합니다.
2021년, OpenAI의 DALL-E는 텍스트 설명을 기반으로 이미지를 생성하는 멀티모달 AI 기술을 선보였습니다. 이는 AI가 언어적 요청을 그래픽으로 변환하는데 큰 발전을 일으켰습니다.

향상된 공간 및 멀티모달 이해력

Magma는 기존의 비전-언어 모델이 가진 언어적 지능을 유지하면서도 향상된 공간적 지능을 추가로 제공합니다. 이는 시각-공간 관계를 이해하고, 이를 기반으로 정교한 계획을 세우고 실행할 수 있는 능력을 갖추고 있습니다.

공간적 지능은 로봇이 3D 공간에서 물체를 감지하고 상호작용하는 데 필수적입니다. 특히, 자율주행차는 이러한 기술을 통해 주변 환경을 실시간으로 분석하고 안전한 운행을 보장합니다.
연구에 따르면, 비전-언어 모델의 공간 인식 능력은 드론의 자율비행 및 물류 로봇의 효율적인 경로 계획에 적용 가능하여 산업 생산성을 크게 개선할 수 있습니다.

디지털 및 물리적 세계의 통합 능력

연구진은 Magma 개발의 두 가지 주요 목표를 설정했습니다. 첫째는 디지털 환경과 로봇 작업을 아우르는 통합 능력입니다. 둘째는 언어, 공간, 시간적 지능을 결합하여 이미지, 비디오, 텍스트 입력을 분석하고 이를 구체적인 행동 계획으로 전환하는 것입니다.

AI의 디지털 및 물리적 세계 통합 능력은 스마트 홈 시스템에서 활용됩니다. 예를 들어, 구글의 Nest Thermostat는 사용자의 음성 명령을 인식하여 온도를 조절하고, 집안의 에너지 효율을 높이는 역할을 합니다.
2020년 기준, IoT 기기의 세계 시장 규모는 약 248조 원으로 추정되며, AI와 IoT의 통합은 이러한 기기들의 상호작용을 더욱 원활하게 하여 시장 규모를 더 확장할 수 있을 것으로 예상됩니다.

새로운 사전 훈련 프레임워크: SoM과 ToM

Magma는 Set-of-Mark (SoM)과 Trace-of-Mark (ToM)라는 두 가지 핵심 패러다임을 통해 높은 수준의 능력을 발휘합니다. SoM은 정적인 이미지에서 행동을 구체화하는 데 중요한 역할을 하며, ToM은 동적 환경에서의 행동 계획을 훈련합니다.

SoM 프레임워크는 고정된 이미지 내의 중요한 요소를 식별하고 이를 바탕으로 행동을 예측하는 데 사용됩니다. 이는 CCTV 분석 등 보안 시스템에 효과적으로 적용됩니다.
ToM은 시간적 패턴 인식 능력을 향상시키며, 이는 비디오 스트리밍 서비스에서 사용자 선호도 예측 및 추천 알고리즘 개선에 기여할 수 있습니다.

다양한 데이터셋으로 강화된 훈련

연구진은 Magma의 멀티모달 역량을 강화하기 위해 다양한 형태의 데이터를 수집했습니다. 교육 비디오, 로봇 조작 데이터셋, UI 탐색 데이터 등을 활용하여 Magma를 훈련시켰습니다.

데이터의 다양성은 AI 모델의 예측 정확도와 학습 능력 향상에 기여합니다. 실제로 ImageNet 챌린지에서의 데이터셋은 컴퓨터 비전 모델 발전에 크게 기여하였습니다.
최근 보고서에 따르면, AI에 사용되는 학습 데이터셋의 양이 1TB를 초과하는 경우, 모델의 정확도는 85% 이상 향상될 수 있습니다. 이는 대규모 데이터셋의 중요성을 증명합니다.

로봇 조작 및 UI 탐색의 최첨단 성능

Magma는 로봇의 물체 픽업 및 부드러운 물체 조작 작업에서 최첨단 성능을 입증했습니다. 또한, 웹 및 모바일 UI 상호작용에서도 뛰어난 정밀도를 보여줍니다.

2021년 기준, 물류 및 제조업에서의 로봇 사용 증가로, 로봇의 정밀한 물체 조작 기술 수요는 15% 성장했습니다. 이는 AI 기술이 산업 현장에서 매우 중요한 요소임을 보여줍니다.
UI 탐색의 자동화는 고객 서비스 산업에서 주목받고 있습니다. 챗봇과 AI 기반 UI 탐색 기능은 고객 경험을 향상시키고, 처리 시간을 줄여 고객 만족도를 높이는 데 중요한 역할을 합니다.

공간 추론 및 비디오 질의 응답 능력

Magma는 복잡한 평가에서 다른 모델보다 뛰어난 공간 추론 능력을 발휘했으며, 비디오 관련 작업에서도 탁월한 성능을 자랑합니다.

공간 추론은 인공지능이 로봇 청소기와 같은 홈 디바이스에서 효과적으로 경로를 계획하고 장애물을 피하는 데 활용됩니다.
한 연구에서는 비디오 질의 응답 시스템이 교육 분야에서 사용될 때, 학생들의 학습 효율이 30% 이상 증가할 수 있음을 발견하였습니다. 이는 AI가 교육 방식의 혁신을 이끌 수 있음을 시사합니다.

AI의 사용성을 한 단계 끌어올리다

Magma는 AI의 사용성을 반응적이고 단일 기능에서 벗어나 프로액티브하고 다기능적으로 전환시킵니다. 이는 인간과 유사한 능력을 향한 중요한 발걸음입니다.

AI의 프로액티브 기능은 스마트폰 비서 예시에서 확인할 수 있습니다. 애플 시리와 구글 어시스턴트는 사용자가 명령을 내리기 전 사용자 습관을 바탕으로 추천 서비스 제공하여 휴대폰 사용 경험을 극대화합니다.
미국 소비자 기술 협회의 설문조사에 따르면, 2022년 AI 제품 구매자 중 45%가 다기능 지원을 위해 AI 솔루션을 선택하는 것으로 나타났습니다. 이는 AI의 다기능적 발전이 소비자 만족도를 높일 수 있음을 보여줍니다.

미래의 응용 분야 전망

연구진은 이미지/비디오 자막 작성, 고급 질의 응답, 복잡한 네비게이션 시스템, 로봇 작업 자동화 등 다양한 분야에 Magma를 적용할 계획입니다. 이는 디지털 및 물리적 도메인을 통합하는 AI의 가능성을 보여줍니다.

이미지는 로봇산업에서 물체 인식 및 분류에, 비디오는 자율주행차의 경로 계획에 활발히 사용되고 있습니다. 이는 AI의 멀티모달 기능이 미래 산업에 필수적인 역할을 할 수 있음을 시사합니다.
Frost & Sullivan 의 보고서에 따르면, 2025년까지 인간과 상호작용을 고려한 AI의 적용 시장은 연평균 20% 성장할 것으로 예상됩니다. 이는 AI가 산업과 생활 전반에 걸쳐 빠르게 확산되고 있음을 암시합니다.

출처 : 원문 보러가기