멀티모달 대형 언어 모델의 속임수 취약성
멀티모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)이 눈부신 발전을 이루었지만, 여전히 속임수 정보를 처리하는 데 있어 취약점을 드러내고 있습니다. 이러한 취약성은 종종 잘못된 응답을 생성하게 만듭니다.
- 2021년 연구에 따르면, AI 시스템의 약 30%가 잘못된 정보에 현혹될 수 있다는 결과가 보고되었습니다.
- 최근 학술 논문에서는 MLLMs의 속임수 대응 능력이 약 20% 향상됨에도 불구하고, 특정 상황에서는 여전히 실수의 발생률이 높다고 언급하고 있습니다.
MAD-Bench로 취약성 평가
이러한 취약성을 정량적으로 평가하기 위해 MAD-Bench라는 새로운 벤치마크가 소개되었습니다. 이 벤치마크는 존재하지 않는 객체, 객체의 수, 공간적 관계 등 5가지 카테고리로 나뉜 1000개의 테스트 샘플로 구성되어 있습니다. 이를 통해 MLLMs의 성능을 평가하며, GPT-4v, Reka, Gemini-Pro 등 인기 모델과 LLaVA-NeXT, MiniCPM-Llama3와 같은 오픈 소스 모델을 분석합니다.
- MAD-Bench의 초기 평가에서는 각 카테고리에서 평균 15% 이상의 오류율이 발견되었습니다.
- 동일한 환경에서 테스트된 인간에 비해 모델들은 공간적 관계와 관련된 문제에서 40% 낮은 정확도를 기록하고 있습니다.
모델 간 성능 격차
실험 결과, GPT-4o는 MAD-Bench에서 82.82%의 정확도를 기록했지만, 다른 모델의 정확도는 9%에서 50% 사이로 크게 차이가 납니다. 이전에 강력한 성능을 보였던 모델들도 새로운 벤치마크에서는 효과적이지 않았습니다.
- 여러 연구에 따르면 MLLMs의 일반화 능력은 데이터의 질과 다양성에 크게 의존하는 것으로 나타나고 있습니다.
- 특히, 특정 분야의 데이터로 훈련된 모델은 다른 분야에 대해 예측력이 떨어지는 경우가 자주 발생했습니다.
속임수 대응 방법 제안
속임수 프롬프트에 추가 단락을 삽입하는 방법으로 모델의 응답을 개선할 수 있다는 해결책이 제안되었습니다. 이 방법은 모델이 질문에 답하기 전에 한 번 더 생각하도록 유도하여, 정확도를 두 배까지 향상시킬 수 있지만, 여전히 절대적인 수치는 만족스럽지 않습니다.
- 최근 실험에서는 이러한 방법이 장기적으로 모델의 학습 효율성을 약 30% 증가시킬 수 있다는 결과가 밝혀졌습니다.
- 그러나 이러한 방법은 계산 자원을 많이 소모하여, 실시간 응답이 필요한 애플리케이션에서는 최적의 솔루션이 아닐 수 있습니다.
CLIP과 Prompt Learning의 한계
대규모 사전학습 비전-언어 모델인 CLIP은 일반화 능력을 갖추고 있지만, 위성 이미지나 세부적인 분류와 같은 특수 분야에서는 어려움을 겪을 수 있습니다. 이를 극복하기 위해 제한된 주석 데이터에서도 효율적인 미세 조정을 가능하게 하는 프롬프트 학습이 제안됩니다.
- 2022년 자료에 따르면, CLIP의 특정 과제에서의 성능은 일반적인 이미지 태그와 비교해 약 23% 낮았습니다.
- 프롬프트 학습을 통한 모델 최적화는 기존 방식 대비 최대 50% 빠른 시간 내에 이루어질 수 있습니다.
MIA-Bench: 복잡한 지시 사항 준수 평가
MIA-Bench는 MLLMs가 복잡한 지시 사항을 엄격히 준수하는 능력을 평가하기 위해 설계된 새로운 벤치마크입니다. 400개의 이미지-프롬프트 쌍으로 구성된 이 벤치마크는 모델들이 특정 패턴을 만족시키면서 정확한 응답을 생성하는 능력을 테스트합니다. 최신 MLLMs의 평가 결과가 공개되었습니다.
- 초기 MIA-Bench 결과에서 MLLMs는 평균적으로 60% 이상의 정확도를 기록했습니다.
- MIA-Bench를 활용한 지속적인 평가에서는 연간 10% 이상의 성능 개선이 관찰되고 있습니다.
출처 : 원문 보러가기