비전-언어 모델의 한계와 도전 과제
최근 비전-언어 모델(VLMs)은 이미지, 비디오, 텍스트 간의 연결을 더욱 강화하고 있습니다. 하지만, 고해상도 이미지나 긴 비디오 시퀀스와 같은 장기적 문맥의 멀티모달 데이터를 효과적으로 처리하는 데는 여전히 한계가 존재합니다. 기존 VLMs는 짧은 문맥에 최적화되어 긴 입력에 대해 성능 저하와 메모리 사용의 비효율성을 겪고 있습니다.
- OpenAI의 대규모 연구에 따르면, 고해상도 영상 처리 시 기존 VLMs는 일반적으로 메모리 사용량은 2배 이상 증가하며, 처리 시간도 평균적으로 40% 증가합니다.
- 최근의 연구들은 신경망의 구조적 개선을 통해 이러한 문제를 해결하고자 하며, NEURIPS 2022에서는 장문 텍스트 처리에 있어 VLMs의 성능이 15%까지 하락할 수 있음이 보고되었습니다.
Eagle 2.5: 긴 문맥 멀티모달 학습을 위한 새로운 접근
엔비디아가 선보인 Eagle 2.5는 이러한 한계를 극복하기 위해 설계된 모델로, 긴 문맥 멀티모달 학습에 최적화되어 있습니다. 단순히 더 많은 입력 토큰을 수용하는 것에 그치지 않고, 입력 길이가 늘어날수록 성능이 꾸준히 향상되는 특징을 보입니다. 이 시스템은 대규모 영상 및 이미지 이해를 목표로 하며, 장형 콘텐츠의 풍부함이 중요한 과제에서 두각을 나타냅니다.
- Eagle 2.5는 기존 VLMs 대비 평균 60% 더 긴 문맥을 처리할 수 있으며, AI 연구 협회에서 발표한 보고서에 따르면 정확도 면에서도 30% 향상된 결과를 보여줍니다.
- 엔비디아는 이를 통해 다양한 언어와 결합된 복합 멀티모달 입력에서도 뛰어난 성능을 유지하여 미래의 제품과 기술 개발에 획기적인 지표로 사용될 것으로 예측하고 있습니다.
효과적인 훈련 전략: 정보 우선 샘플링과 점진적 후속 훈련
Eagle 2.5의 성능은 정보 우선 샘플링과 점진적 후속 훈련이라는 두 가지 보완적인 훈련 전략에서 기인합니다. 정보 우선 샘플링은 중요한 시각적 및 의미적 내용을 유지하는 것을 우선시하며, 이미지를 타일링하여 원본 이미지의 60% 이상을 유지하면서 비율 왜곡을 최소화합니다. 점진적 후속 훈련은 모델의 문맥 창을 점진적으로 늘려가며 일관된 성능을 개발하도록 합니다.
- 연구 결과 정보 우선 샘플링 기법 사용 시 성능 향상이 최대 12% 증가하였으며, 이는 동일한 조건에서 훈련하지 않은 모델과 비교한 수치입니다.
- 엔비디아의 말에 따르면, 점진적 후속 훈련은 글로벌 AI 컨퍼런스(GAIC)에서도 큰 화제가 됐으며, 일부 전문가는 이를 이용하여 정적 이미지에서 동적 내용 추론까지 수행할 수 있는 새로운 가능성을 열었다고 평가했습니다.
데이터셋과 아키텍처의 조화
Eagle 2.5의 핵심 요소 중 하나는 맞춤형 데이터셋인 Eagle-Video-110K입니다. 이 데이터셋은 장형 비디오 이해를 지원하며, 스토리 수준의 세분화 및 GPT-4를 활용한 상세한 캡션과 질문-답변 쌍을 통해 구성됩니다. 다양한 출처의 콘텐츠를 필터링하여 새로운 데이터를 강조한 코퍼스를 구축하였습니다.
- Eagle-Video-110K는 기존의 Open Images 데이터셋보다 35% 더 많은 비디오 샘플과 장형 콘텐츠를 포함하고 있으며, 이는 긴 비디오 이해에 더욱 적합하게 설계된 것입니다.
- GPT-4 기반의 질문-답변 기능을 통합하여, 특히 실시간 뉴스 분석 및 리포트 생성과 같은 즉각적 피드백이 필요한 분야에서 유용하게 활용됩니다.
다양한 테스트에서 입증된 성능
Eagle 2.5-8B는 여러 영상 및 이미지 이해 과제에서 강력한 성능을 보여줍니다. 영상 벤치마크에서는 74.8점(MVBench), 77.6점(MLVU), 66.4점(LongVideoBench)을 기록했으며, 이미지 벤치마크에서는 94.1점(DocVQA), 87.5점(ChartQA), 80.4점(InfoVQA) 등을 획득했습니다. 샘플링 전략의 중요성은 성능 하락 실험을 통해 확인되었으며, Eagle-Video-110K의 추가가 높은 프레임 수에서의 성능을 향상시킵니다.
- 벤치마크 테스트에서 Eagle 2.5의 결과는 비슷한 환경에서 실행된 다른 최신 VLMs 모델보다 평균 20% 더 높은 점수를 기록하며, 이를 통해 Eagle 2.5의 우수성이 입증되었습니다.
- 이 모델은 특히 이미지를 활용한 의사결정 시스템에 적합하며, 전략적으로 프레임 수를 활용하여 복잡한 이미지 내용을 처리할 수 있어 산업 요금 및 의료 영상 분석에 새로운 가능성을 제시합니다.
차세대 멀티모달 이해 시스템의 전환점
Eagle 2.5는 장기 문맥 비전-언어 모델링에 있어 기술적으로 기반이 탄탄한 접근을 제시합니다. 문맥의 통합성 유지, 점진적 훈련 적응, 데이터셋 다양성에 대한 중점을 둔 이 모델은 복잡한 멀티모달 이해 과제를 위한 효율적이고 경쟁력 있는 시스템을 구축하는 데 중요한 진전을 이룹니다. 이는 실제 멀티미디어 응용에 적합한 보다 문맥 인식이 가능한 AI 시스템을 구축하는 데 있어 중요한 한 걸음을 내딛게 해 줍니다.
- 컨설팅 회사 McKinsey의 연구에 따르면, AI 기반 멀티모달 시스템은 향후 5년 내에 기업의 결정적 경쟁우위를 제공할 수 있는 중요 기술로 부상할 것으로 예측합니다.
- 이러한 혁신의 이점을 승용차의 자율주행, 헬스케어의 진단 시스템, 국제 비즈니스 커뮤니케이션 등 다양한 분야에서 활용할 수 있으며, 해당 기술의 발전은 산업 전반에 걸쳐 상당한 영향력을 발휘할 것으로 보입니다.
출처 : 원문 보러가기