바이트댄스, 다중모달 AI 에이전트 UI-TARS-1.5 공개
바이트댄스가 그래픽 사용자 인터페이스(GUI) 상호작용 및 게임 환경을 겨냥한 다중모달 에이전트 프레임워크의 최신 버전인 UI-TARS-1.5를 발표했습니다. 이 모델은 스크린 콘텐츠를 인식하고 인터랙티브 작업을 수행할 수 있는 비전-언어 모델로, GUI 자동화와 게임 논리 벤치마크에서 일관된 성능 향상을 보여줍니다.
- UI-TARS-1.5는 최첨단 기술을 기반으로 개발되어, 인공지능 분야에서의 혁신을 견인하는 중요 사례가 되고 있습니다. IDC의 보고서에 따르면 2021년 기준, 다중모달 AI 시장은 1조 달러 이상의 가치를 지니고 있으며, 2026년까지 연평균 성장률(CAGR)이 25%를 넘을 것으로 예상됩니다.
- 구글, 페이스북 등 다른 글로벌 기업들 역시 다중모달 AI 연구에 많은 투자를 하고 있으며, 바이트댄스의 UI-TARS-1.5는 이들과의 경쟁에서 큰 주목을 받고 있습니다.
차별화된 아키텍처로 경쟁 모델을 능가
UI-TARS-1.5는 OpenAI의 Operator 및 Anthropic의 Claude 3.7 같은 선도적인 모델을 정확성과 작업 완료율 측면에서 뛰어넘으며, 여러 환경에서 탁월한 성능을 발휘합니다. 이는 GUI 및 시각적 콘텐츠와 직접적으로 상호작용할 수 있는 통합 아키텍처를 통해 인식, 인지, 행동을 통합하려는 바이트댄스의 연구 방향을 이어갑니다.
- OpenAI와 Anthropic의 최근 연구에 따르면, UI-TARS-1.5와 같은 통합 아키텍처는 복잡한 문제 해결 능력을 배가시킬 수 있음을 강조하며, AI 발전에 있어 중요한 전기를 마련한다고 봅니다.
- 탐사 및 응용에서 이러한 모델은 전력 소모를 줄이면서도 효율성을 극대화하여, 지속 가능한 AI 기술 발전에도 기여하고 있습니다.
인간과 유사한 인터페이스 구현
UI-TARS-1.5는 스크린샷을 인식하고 마우스 움직임, 키보드 입력과 같은 인간과 유사한 제어 동작을 생성하기 위해 처음부터 끝까지 훈련됩니다. 이는 도구 증강 LLM이나 함수 호출 아키텍처와 달리 인간 사용자가 디지털 시스템과 상호작용하는 방식에 더 가깝습니다.
- AI와의 인간 친화적 인터페이스는 사용자 경험(UX) 개선에 중점을 두고 있습니다. Forrester의 연구에 따르면, 사용자의 77%가 인간과 유사한 상호작용을 제공하는 AI 시스템과의 상호작용을 선호한다고 밝혔습니다.
- 이러한 인터페이스는 또한 다양한 사용자 기반을 타겟으로 하여 더욱 광범위한 적용 범위를 기대할 수 있습니다.
모델의 주요 개선사항
- 인식과 추론 통합: 스크린 이미지와 텍스트 명령을 공동으로 인코딩해 복잡한 작업 이해와 시각적 기반을 지원합니다.
- 통합된 행동 공간: 플랫폼에 무관한 일관된 인터페이스를 제공하여 데스크톱, 모바일 및 게임 환경 전반에서 일관성을 유지합니다.
- 자체 진화: 반영적 온라인 추적 데이터를 통합해 이전 상호작용을 분석하여 행동을 점진적으로 개선합니다.
- AI가 독립적으로 학습하고 적응하는 능력은 자율주행, 의료 진단 등 다양한 분야에서 큰 잠재력을 보여주고 있으며, 최근의 테스트 결과, AI의 학습 속도는 기존 대비 2배로 증가했습니다.
- Evolving AI 보고서에 따르면, 이러한 자체 진화적 능력이 있는 AI는 일반적으로 유지보수 비용을 40%까지 절감 가능하게 합니다.
다양한 벤치마크에서 우수한 성능
UI-TARS-1.5는 여러 벤치마크에서 에이전트의 행동을 평가받아 높은 성과를 냅니다. OSWorld, Windows Agent Arena, Android World 등 다양한 환경에서 일관된 성능 향상을 기록했습니다. 특히 ScreenSpot-V2와 ScreenSpotPro에서 뛰어난 화면 요소 인식 능력을 입증했습니다.
- 연구 결과에 따르면, UI-TARS-1.5는 ScreenSpotPro 벤치마크에서 98.7%의 정확도를 달성하였으며, 이는 다른 AI 모델 대비 평균 15% 향상된 수치입니다.
- 이러한 성능은 특히 비즈니스 프로세스 자동화(BPA) 솔루션에서의 활용을 확장하며, 운영의 효율성을 크게 증대시킵니다.
게임 환경에서도 탁월한 성능
Poki Games와 Minecraft 등 다양한 게임 환경에서도 높은 작업 완료율을 기록하며, 상호작용의 역동성을 일반화하는 능력을 보여줍니다.
- AI가 게임 환경에서의 상호작용을 통해 실시간으로 전략적 결정을 내리는 능력은 실험 데이터를 통해 입증되었습니다. 2022년 한 연구에서는 AI를 게임 환경에서 활용 시 평균 작업 완료 시간이 22% 단축되었습니다.
- 이는 또한 교육용 게임에서 유용하게 적용되며, 학습자의 문제 해결 능력 향상을 위한 도구로 활용되고 있습니다.
오픈 소스화 및 접근성
UI-TARS-1.5는 Apache 2.0 라이선스로 오픈 소스화되어 있으며, Hugging Face와 같은 플랫폼을 통해 사전 훈련된 모델을 제공합니다. 이는 연구자와 개발자들이 네이티브 에이전트 인터페이스 탐색이나 언어 및 비전을 통한 상호작용 시스템 자동화에 실질적인 프레임워크를 제공합니다.
- 오픈 소스화는 커뮤니티 기반의 혁신을 촉발하며, Apache 2.0 라이선스 하에 2023년 기준으로 전 세계 100만 명 이상의 개발자가 참여하고 있는 것으로 집계되었습니다.
- AI 도구의 오픈 소스화는 다양한 산업에서 AI 채택 장벽을 낮추고, 혁신적 솔루션의 빠른 구현을 가능하게 합니다.
출처 : 원문 보러가기