멀티모달 대형 언어 모델의 속임수 취약성

멀티모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)이 눈부신 발전을 이루었지만, 여전히 속임수 정보를 처리하는 데 있어 취약점을 드러내고 있습니다. 이러한 취약성은 종종 잘못된 응답을 생성하게 만듭니다.

2021년 연구에 따르면, AI 시스템의 약 30%가 잘못된 정보에 현혹될 수 있다는 결과가 보고되었습니다.
최근 학술 논문에서는 MLLMs의 속임수 대응 능력이 약 20% 향상됨에도 불구하고, 특정 상황에서는 여전히 실수의 발생률이 높다고 언급하고 있습니다.

MAD-Bench로 취약성 평가

이러한 취약성을 정량적으로 평가하기 위해 MAD-Bench라는 새로운 벤치마크가 소개되었습니다. 이 벤치마크는 존재하지 않는 객체, 객체의 수, 공간적 관계 등 5가지 카테고리로 나뉜 1000개의 테스트 샘플로 구성되어 있습니다. 이를 통해 MLLMs의 성능을 평가하며, GPT-4v, Reka, Gemini-Pro 등 인기 모델과 LLaVA-NeXT, MiniCPM-Llama3와 같은 오픈 소스 모델을 분석합니다.

MAD-Bench의 초기 평가에서는 각 카테고리에서 평균 15% 이상의 오류율이 발견되었습니다.
동일한 환경에서 테스트된 인간에 비해 모델들은 공간적 관계와 관련된 문제에서 40% 낮은 정확도를 기록하고 있습니다.

모델 간 성능 격차

실험 결과, GPT-4o는 MAD-Bench에서 82.82%의 정확도를 기록했지만, 다른 모델의 정확도는 9%에서 50% 사이로 크게 차이가 납니다. 이전에 강력한 성능을 보였던 모델들도 새로운 벤치마크에서는 효과적이지 않았습니다.

여러 연구에 따르면 MLLMs의 일반화 능력은 데이터의 질과 다양성에 크게 의존하는 것으로 나타나고 있습니다.
특히, 특정 분야의 데이터로 훈련된 모델은 다른 분야에 대해 예측력이 떨어지는 경우가 자주 발생했습니다.

속임수 대응 방법 제안

속임수 프롬프트에 추가 단락을 삽입하는 방법으로 모델의 응답을 개선할 수 있다는 해결책이 제안되었습니다. 이 방법은 모델이 질문에 답하기 전에 한 번 더 생각하도록 유도하여, 정확도를 두 배까지 향상시킬 수 있지만, 여전히 절대적인 수치는 만족스럽지 않습니다.

최근 실험에서는 이러한 방법이 장기적으로 모델의 학습 효율성을 약 30% 증가시킬 수 있다는 결과가 밝혀졌습니다.
그러나 이러한 방법은 계산 자원을 많이 소모하여, 실시간 응답이 필요한 애플리케이션에서는 최적의 솔루션이 아닐 수 있습니다.

CLIP과 Prompt Learning의 한계

대규모 사전학습 비전-언어 모델인 CLIP은 일반화 능력을 갖추고 있지만, 위성 이미지나 세부적인 분류와 같은 특수 분야에서는 어려움을 겪을 수 있습니다. 이를 극복하기 위해 제한된 주석 데이터에서도 효율적인 미세 조정을 가능하게 하는 프롬프트 학습이 제안됩니다.

2022년 자료에 따르면, CLIP의 특정 과제에서의 성능은 일반적인 이미지 태그와 비교해 약 23% 낮았습니다.
프롬프트 학습을 통한 모델 최적화는 기존 방식 대비 최대 50% 빠른 시간 내에 이루어질 수 있습니다.

MIA-Bench: 복잡한 지시 사항 준수 평가

MIA-Bench는 MLLMs가 복잡한 지시 사항을 엄격히 준수하는 능력을 평가하기 위해 설계된 새로운 벤치마크입니다. 400개의 이미지-프롬프트 쌍으로 구성된 이 벤치마크는 모델들이 특정 패턴을 만족시키면서 정확한 응답을 생성하는 능력을 테스트합니다. 최신 MLLMs의 평가 결과가 공개되었습니다.