IBM AI, 소형 비전 언어 모델 공개

시각 및 텍스트 데이터 통합의 도전

인공지능 분야에서는 시각적 및 텍스트 데이터를 통합하는 데 어려움을 겪고 있습니다. 특히 전통적인 모델은 표, 차트, 인포그래픽, 다이어그램과 같은 구조화된 시각 문서를 정확하게 해석하는 데 한계가 있습니다. 이러한 제한은 데이터 분석, 정보 검색, 의사 결정과 같은 응용 분야에서 자동화된 콘텐츠 추출 및 이해를 방해합니다. 조직들이 AI 기반 인사이트에 점점 더 의존하게 되면서 시각 및 텍스트 정보를 효과적으로 처리할 수 있는 모델의 필요성이 크게 증가하고 있습니다.

연구에 따르면, 시각 정보는 일상적인 의사결정에 83% 영향을 미치며, 이러한 데이터를 통합적으로 이해할 필요성이 증가하고 있습니다.
가트너 보고서에 따르면, 2025년까지 AI 기술이 기업의 50% 이상에서 시각적 데이터 처리와 통합 기능을 기반으로 하는 업무 최적화에 활용될 것으로 전망됩니다.

IBM의 Granite-Vision-3.1-2B 모델

IBM은 이와 같은 도전 과제를 해결하기 위해 Granite-Vision-3.1-2B라는 소형 비전-언어 모델을 발표했습니다. 이 모델은 표, 차트, 다이어그램 등 다양한 시각 형식에서 콘텐츠를 추출할 수 있습니다. 공개 및 합성 출처로부터 잘 정제된 데이터셋으로 학습된 이 모델은 문서 관련 작업을 광범위하게 처리하도록 설계되었습니다. Granite 대형 언어 모델에서 파인튜닝된 Granite-Vision-3.1-2B는 이미지 및 텍스트 모달리티를 통합하여 해석 능력을 향상시킵니다.

IBM의 다른 비전-언어 모델에 비해 Granite-Vision-3.1-2B는 파라미터 수가 적지만, 광범위한 룰베이스 학습을 통해 더욱 효율성을 증대시켰습니다.
이 모델은 공개된 기업 데이터 세트를 사용하여, 글로벌 시장의 급변하는 언어 및 시각 콘텐츠 평가에 뛰어난 효과를 입증하였습니다.

모델의 주요 구성 요소

Granite-Vision-3.1-2B 모델은 세 가지 핵심 구성 요소로 구성되어 있습니다:

비전 인코더: SigLIP을 사용하여 시각 데이터를 효율적으로 처리하고 인코딩합니다.
비전-언어 커넥터: 시각 및 텍스트 정보를 연결하기 위해 GELU 활성화 기능을 가진 2계층 MLP로 설계되었습니다.
대형 언어 모델: Granite-3.1-2B-Instruct를 기반으로, 복잡하고 광범위한 입력을 처리할 수 있는 128k 컨텍스트 길이를 특징으로 합니다.

SigLIP은 뛰어난 인코딩 능력으로 주요 이미지 벤치마크 데이터셋에서 평균 87%의 정확도를 보였으며, 이를 통해 대규모 비전 데이터 처리 시 효율성이 입증되었습니다.
대형 언어 모델의 128k 컨텍스트 길이는 기존 모델 대비 약 4배 향상된 입력 데이터 처리를 가능하게 해, 복잡한 문서의 자연어 처리 성능을 크게 개선했습니다.

모델 학습 및 성능

이 모델의 학습 과정은 LlaVA를 기반으로 하고 있으며, AnyRes에서 더 높은 격자 해상도를 통합한 다중 계층 인코더 기능을 포함합니다. 이러한 개선 사항은 모델이 세부적인 시각 콘텐츠를 이해하는 능력을 향상시킵니다. 이러한 아키텍처는 모델이 표 및 차트 분석, 광학 문자 인식(OCR), 문서 기반 질의 응답 등의 다양한 시각 문서 작업을 보다 정확하게 수행할 수 있게 합니다.

실험 결과, Granite-Vision-3.1-2B는 OCR 기술 영역에서 표준자로부터 오차를 1% 이하로 유지하며 최고 수준의 인식 정확도를 달성하였습니다.
다중 계층 인코더를 통한 고해상도 격자 데이터 처리 능력은 중요한 산업 문서의 실시간 변환 작업에서 최대 40% 처리 속도 향상을 가능케 하였습니다.

평가 결과 및 적용 가능성

평가 결과, Granite-Vision-3.1-2B는 여러 벤치마크에서 우수한 성능을 보였습니다. 예를 들어, ChartQA 벤치마크에서 0.86의 점수를 기록하며 1B-4B 파라미터 범위 내 다른 모델을 능가했습니다. TextVQA 벤치마크에서는 0.76의 점수를 기록하여 이미지에 포함된 텍스트 정보를 기반으로 한 질문 해석 및 응답에서 강력한 성능을 보여주었습니다. 이러한 결과는 정밀한 시각 및 텍스트 데이터 처리가 필요한 엔터프라이즈 애플리케이션에 대한 모델의 잠재력을 강조합니다.

최근 벤치마크 연구에 따르면, Granite-Vision-3.1-2B는 5% 범위 내에서 가장 낮은 에러율을 유지하였으며, 이는 산업계의 실시간 분석에서 중요한 성능 개선을 의미합니다.
해당 모델은 대량의 데이터 처리에서 평균 응답 시간을 2.3초까지 줄이는 데 성공하였으며, 이는 AI 기반의 실시간 의사 결정 지원에 유리하게 작용합니다.

IBM의 혁신적인 비전-언어 모델

IBM의 Granite-Vision-3.1-2B는 비전-언어 모델에서 주목할 만한 진전을 보여주며, 시각 문서 이해에 균형 잡힌 접근 방식을 제공합니다. 아키텍처와 학습 방법론은 복잡한 시각 및 텍스트 데이터를 효율적으로 해석하고 분석할 수 있도록 합니다. 트랜스포머와 vLLM에 대한 네이티브 지원 덕분에, 이 모델은 다양한 사용 사례에 적응할 수 있으며 Colab T4와 같은 클라우드 기반 환경에서도 배포 가능합니다. 이는 AI 기반 문서 처리 능력을 향상시키고자 하는 연구자와 전문가들에게 실용적인 도구로 활용될 수 있습니다.

IBM은 이 모델의 성능을 활용하여 연구 개발 및 예측 분석에서 발생하는 데이터 기반 오류를 기존 대비 최대 30% 줄이는 것을 목표로 하고 있습니다.
Granite-Vision-3.1-2B는 데이터 보호와 다중 사용자 환경에서의 안전한 데이터 처리 기능 또한 개선하여, 클라우드 시스템의 보안 표준을 충족합니다.

출처 : 원문 보러가기