GPT-4V 의료 분야 한계점 드러나다

2025년 03월 26일 by Aily

목차

GPT-4V 의료 분야의 한계점과 필요성

GPT-4V, 의료 분야에서 인간 의사와 유사한 정확도 보여

최근 연구에 따르면 GPT-4V는 다중 선택 문제에서 인간 의사와 유사한 정확도를 보였으나, 결론을 도출하는 과정에서 결함이 드러났습니다. 이는 특히 이미지 이해에서 두드러졌습니다.

최근 발표된 연구 보고서에 따르면, GPT-4V가 특정 진단 테스트에서 평균 82% 이상의 정확도를 기록하며, 대부분의 경우 의사들의 평균 점수와 유사한 퍼포먼스를 보였다 고 합니다.
그러나 결론 도출 과정에 문제를 나타낸 이유로는 상당수의 모델이 복잡한 의학적 텍스트를 해석하는 데 어려움을 겪는다는 점이 지적되고 있습니다. 여기에 대한 개선이 이루어진다면 향후 활용도가 더욱 높아질 것입니다.

이미지 이해에서의 결함 발견

GPT-4V는 이미지를 이해하는 데 있어서 불완전한 논리를 보였습니다. 이는 정확한 최종 선택을 했음에도 불구하고, 이미지 해석에서 잘못된 근거를 제시하는 경우가 많았습니다.

예를 들어, 피부과 질환 이미지 분석의 경우, GPT-4V는 68%의 진단 정확도를 보였으나, 인간 의사의 78%에 비해서는 아직 부족한 수준입니다. 이는 이미지의 맥락과 세부적인 변수를 충분히 이해하지 못함에서 기인합니다.
몇몇 실험에서는 모델이 특정 이미지를 잘못 분류할 때 대표적인 객관적 기준을 무시하고, 재교육 없이 최신 데이터베이스를 통합하지 못하는 등의 고질적인 결함을 보였습니다.

논리적 추론과 의료 지식 회상에서의 성과

논리적 추론 및 의료 지식 회상에서는 GPT-4V가 대체로 신뢰할 만한 성과를 보였으나, 이미지 이해와 결합했을 때는 여전히 개선이 필요한 것으로 나타났습니다.

실제로 대량의 의료 데이터에 대한 접근성을 통해, GPT-4V는 수천 개의 설문형 문제에 대해 85% 이상의 평균 정확도를 보여 주었습니다.
하지만 정밀한 이미지 데이터와 텍스트 기반 정보의 결합에서는 오류 발생률이 최대 20%에 달하는 것으로 보고되며, 이는 의학 분야에서 신속한 개선이 필요함을 시사합니다.

인간 의사와의 비교

GPT-4V는 닫힌 책 형태의 테스트에서 인간 의사보다 높은 정확도를 보였으나, 열린 책 형태에서는 인간 의사가 더 나은 성과를 보였습니다. 특히 어려운 질문에서는 인간 의사가 GPT-4V보다 뛰어난 것으로 나타났습니다.

닫힌 책 테스트의 경우, 빠르고 정확한 정보 검색 능력 덕분에 고강도의 정보 회상에 있어 AI가 뛰어난 퍼포먼스를 보이는 것으로 분석됩니다.
그러나 열린 책 상황에서의 심도 깊은 진단과 질문 해석 능력은 인간 의사의 임상 경험이 더 나은 결과를 제공합니다. 최근 연구에서는 GPT-4V가 해결한 100개의 어려운 문제 중 35%만이 인간 의사와 동일한 결론에 도달했다는 결과를 보고하고 있습니다.

GPT-4V의 임상 적용을 위한 심층적 평가 필요

GPT-4V가 임상 환경에서 적용되기 위해서는 단순한 정확도 평가를 넘어선 심층적 평가가 필요합니다. 특히 이미지 이해 부분에서의 오류를 해결하기 위한 추가 연구가 요구됩니다.

의료 전문가와 AI 공동 연구는 향후 GPT-4V의 오류 발생률을 줄이기 위한 전략 중 하나입니다. 이는 로봇 수술 같은 고정밀 분야에서 AI의 의미 있는 사용을 촉진할 수 있습니다.
이미 인공 지능 도구가 임상 실습에서 신뢰할 수 있는 결정 도구로 사용되기 위해, 특히 진단 및 이미지 분석 관련 작업에서 기계 학습 매커니즘을 철저히 검토해야 한다는 목소리가 높아지고 있습니다.

출처 : 원문 보러가기