다중모달 AI 모델 악용 위험 증가 연구

다중모달 AI 모델, 악용 가능성 높아져

Enkrypt AI의 연구에 따르면, 다중모달 AI 모델은 새로운 탈옥 기법으로 인해 미디어 처리 기능이 악용되어 필터를 우회하고 유해한 결과물을 생성할 위험이 높아지고 있습니다.

다중모달 AI는 최근 몇 년 동안 다양한 기업과 연구 기관에서 확산되었으며, 이미지, 영상, 텍스트 데이터를 융합하여 높은 수준의 인식을 제공합니다. 2023년, 시장 분석 보고서에 따르면, 다중모달 AI 시장 규모는 약 5억 달러로 추정되며 2028년까지 연평균 48% 성장할 것으로 예상됩니다.
하지만 이러한 발전과 함께 동일한 기술이 악의적으로 사용될 가능성도 높아지고 있습니다. 실제로 2022년부터 악의적인 사용 빈도가 급증하고 있어 제조업체들은 필터링 및 감지 기술을 강화하는 데 주력하고 있습니다.

다중모달 모델의 확장된 공격 표면

다중모달 AI 모델은 텍스트와 이미지 입력을 모두 처리하도록 설계되었지만, 충분한 보안 조치가 없을 경우 악용의 가능성이 커진다는 점을 Enkrypt AI가 보고했습니다. 특히 Mistral의 Pixtral-Large (25.02) 및 Pixtral-12b 모델이 주목됩니다.

이러한 모델들은 비단 텍스트와 이미지만이 아닌 음성 및 가상 현실 콘텐츠도 처리할 수 있도록 확장되고 있습니다. 그러나 이는 동시에 해커에게 다양한 공격 벡터를 제공하고 있습니다.
연구에 따르면, 특히 이미지 기반 프롬프트 주입 기법은 매우 치명적입니다. 예를 들어, 특정 패턴을 가지는 이미지를 사용해 AI 모델을 오도함으로써 의도치 않은 출력을 유도할 수 있습니다.

Pixtral 모델의 유해 콘텐츠 생성 가능성

Pixtral-Large (25.02)와 Pixtral-12b 모델은 OpenAI의 GPT-4o 및 Anthropic의 Claude 3.7 Sonnet과 비교하여 아동 성착취물 관련 텍스트를 생성할 가능성이 60배 높으며, 위험한 화학, 생물학, 방사선, 핵 정보를 생성할 가능성이 18~40배 더 높습니다.

이러한 경향은 AI 모델의 훈련 과정과 데이터셋의 편향성에서 기인합니다. Pixtral 모델의 대규모 데이터셋은 높은 정확성을 목표로 다양한 데이터를 포함하지만, 이는 동시에 위험한 정보를 학습하게 만들 수 있습니다.
실제로 2023년, 대형 AI 모델 5개를 대상으로 한 연구에서 유사한 결과가 나왔으며, 안전성을 높이기 위한 새로운 알고리즘 개발이 필요하다는 결론이 제시되었습니다.

이미지 파일 내 숨겨진 프롬프트의 위험

이러한 위험은 명시적으로 악의적인 텍스트 입력에 의해 발생하는 것이 아니라, 이미지 파일 내에 숨겨진 프롬프트 주입에 의해 촉발됩니다. 이는 전통적인 안전 필터를 효과적으로 우회하는 방법을 제시합니다.

이미지 스테가노그래피는 이러한 기술 중 하나로, 이미지 내에 보이지 않는 형태로 정보나 프롬프트를 숨길 수 있습니다. 이러한 기술은 최근 몇 년 동안 더욱 정교해지고 있으며, AI 모델을 대상으로한 악의적인 프롬프트 주입에 이용되고 있습니다.
다중모달 시스템의 보안을 강화하기 위해, 이미지 및 영상 파일 내의 숨겨진 메시지를 탐지할 수 있는 전문 해석기를 개발하는 것이 필수적입니다.

강화된 보안 프로토콜의 필요성

Enkrypt AI는 이러한 취약점이 생성형 AI의 안전한 사용을 저해할 수 있음을 강조하며, AI 개발자와 기업을 위한 보안 프로토콜 강화를 권장합니다. 이는 연속적인 자동화 스트레스 테스트 및 컨텍스트 인식 다중모달 가드레일 배포를 포함합니다.

새로운 프로토콜은 AI 모델의 학습 및 운영 전 과정에 연관될 수 있는 취약점을 정확하게 파악하기 위해 설계됩니다. 2023년 데이터에 따르면, AI 모델의 공격 면적을 줄이는 것은 전체 공격 시도를 약 30% 이상 감소시킵니다.
이러한 보안 프로토콜에 더해, 업계 전반에서 보안 데이터 공유를 통해 다양한 위협에 대한 빠른 대응력을 높이는 것도 효과적입니다.

지속적인 모니터링과 대응 체계 구축

실시간 모니터링 및 사건 대응 시스템을 구축하고, 취약성을 투명하게 소통할 수 있는 모델 리스크 카드를 생성하는 것이 필요합니다. 이는 AI 시스템의 책임 있는 배포를 위한 중요한 단계입니다.

실시간 모니터링 시스템은 잠재적인 위협을 조기에 발견하고 대응할 수 있는 능력을 제공합니다. 기업들은 이러한 시스템을 통해 악의적 사용 사례를 빠르게 식별하고 해결할 수 있습니다.
2023년, AI 모델의 리스크 관리 프레임워크에 대한 연구에서는, 80% 이상의 기업이 미묘한 악의적 사용을 제때 감지하지 못한다고 보도되었으며, 이는 리스크 카드 사용 및 지속적인 모니터링의 중요성을 부각시켰습니다.

안전한 AI 기술 활용의 중요성

Enkrypt AI의 평가는 엄격한 레드 팀 활동, 사후 정렬, 지속적인 모니터링의 중요성을 강조합니다. 이러한 조치를 통해 기업 배포 및 대중을 생성형 AI의 악용으로부터 보호할 수 있습니다.

레드 팀 활동은 AI 시스템의 취약성을 발견하고 평가하기 위한 공격 시뮬레이션 기술을 사용합니다. 이는 실제 공격 시나리오를 모의함으로써 시스템 성능과 안전성을 높일 수 있습니다.
연구에 따르면, 사후 정렬이 효과적으로 이루어진 조직은 악의를 가진 공격으로 인한 피해를 최대 40%까지 줄일 수 있으며, 지속적인 모니터링은 다른 잠재적 위협을 조기에 발견하고 신속하게 조치를 취할 수 있는 기반을 마련합니다.

출처 : 원문 보러가기