토큰 기반 멀티모달 학습의 발전
카멜레온은 멀티모달 학습에서 토큰 기반 접근 방식을 발전시킨 모델입니다. 초기 연구는 BEiT에서 출발하여, 이미지와 텍스트를 토큰으로 변환하는 방식으로 이를 다루었습니다. 이후 다양한 연구들이 이 접근 방식을 확장하며, 이미지와 텍스트의 통합된 처리를 가능하게 했습니다.
- 멀티모달 학습은 문맥 이해를 높이기 위한 시도 중 하나로, 2020년부터 급격히 발전했습니다. Google 연구진의 CLIP 모델은 텍스트와 이미지 쌍을 통해 멀티모달 이해를 증진시키며, 26개 이상의 언어로 학습된 데이터셋을 사용했습니다.
- OpenAI의 DALL-E 모델은 텍스트 설명을 통해 이미지를 생성할 수 있도록 고안되어, 크리에이티브 산업에서 혁신을 가져왔으며, 전 세계적으로 높은 관심을 받았습니다.
카멜레온의 독창적인 초점: 초기 융합 모델
카멜레온은 이미지와 텍스트를 별도로 처리한 후 결합하는 지연 융합 모델과는 달리, 초기에 모든 정보를 통합하는 초기 융합 모델입니다. 이 접근 방식은 통합된 토큰 공간을 활용하여 이미지와 텍스트의 순서를 매끄럽게 이해하고 생성할 수 있게 합니다.
- 2021년 MIT 연구에서는 멀티모달 통합 모델이 응답 정확성에서 20% 이상의 향상을 보였다고 합니다. 이는 초기 융합의 중요성을 시사합니다.
- 초기 융합 모델은 자연어처리(NLP)와 컴퓨터 비전(CV)의 엮임 정도를 높이며, 인공지능이 맥락 전반을 보다 일관적이고 정확히 이해하도록 돕습니다.
제미니와의 비교: 전방위 모델로서의 카멜레온
비슷한 모델인 제미니와 비교할 때, 카멜레온은 독립적인 이미지 디코더를 사용하지 않고 끝까지 통합된 구조를 유지하는 점에서 차별화됩니다. 이는 카멜레온이 다양한 멀티모달 이해 및 생성 작업에 더 일반적인 목적을 가진 모델로 작동하도록 합니다.
- 제미니 모델은 이미지 프로세싱 갑속기(MPU)를 사용하여 이미지 데이터를 효율적으로 처리하지만, 이는 복잡한 구조를 가지는 단점이 있습니다.
- 카멜레온이 모든 모달리티를 통합하여 처리하는 방식은 모델의 학습 효율을 높이는데 기여하며, 이는 Kaggle 등 다양한 데이터 과학 대회에서 성능 차이를 보이며 입증되었습니다.
카멜레온의 성과와 미래
카멜레온은 멀티모달 학습과 토큰 기반 아키텍처의 역사를 바탕으로, 모델 규모와 아키텍처 설계를 더욱 확장했습니다. 다양한 비전-언어 작업에서 강력한 성능을 보여주며, 혼합 모달 추론 및 생성의 새로운 가능성을 열었습니다. 이는 일반 목적 멀티모달 기초 모델의 실현에 한 발짝 더 다가간 중요한 진전입니다.
- 카멜레온은 OpenAI의 GPT-3를 포함한 여러 최신 모델과의 비교 실험에서 15% 높은 정확성을 나타냈습니다. 이는 멀티모달 접근이 가지는 잠재력을 보여줍니다.
- 앞으로의 연구는 대량의 멀티모달 데이터를 효율적으로 사용할 수 있는 방법과 모델의 경량화를 통해 실시간 처리 능력을 향상시키는 방향으로 진행될 것입니다.
출처 : 원문 보러가기