의료 분야에 적용된 다중 모달 모델 평가

다중 모달 AI 모델과 인간 지성의 비교

최근 연구에서는 다중 모달 AI 모델이 NEJM 이미지 챌린지에서 인간의 집단 지성과 어떻게 비교되는지를 평가했습니다. 이 연구는 AI의 임상 진단에서의 가능성과 현재의 한계를 강조합니다.

Anthropic의 Claude 3 패밀리는 평가된 AI 모델 중 가장 높은 정확도를 보였으며, 평균 인간 정확도를 초과했습니다. 하지만 인간의 집단적 의사 결정이 모든 AI 모델을 능가했습니다.

GPT-4 Vision Preview는 더 쉬운 질문에 더 자주 응답했으며, 작은 이미지와 긴 질문에 대한 응답이 많았습니다. 이는 제한적인 응답 정책의 영향을 보여줍니다.

대형 언어 모델의 의료 분야 적용은 특히 의료 진단에서의 신뢰성 및 윤리적 문제를 제기합니다. 최근 연구는 이러한 모델이 임상 환경에서 인간 전문가의 지식을 증진할 가능성을 보여줍니다.

2005년 10월부터 시작된 NEJM 이미지 챌린지에는 8천5백만 건 이상의 응답이 있었습니다. 평균 정답률은 49.4%로, 다양한 난이도의 질문이 포함되었습니다.

모든 공개 모델과 Anthropic의 모델은 모든 질문에 응답했지만, GPT-4 Vision Preview는 76%의 경우에만 응답했습니다. 이는 모델의 선택적 응답과 관련된 윤리적 문제를 제기합니다.

AI 모델 중 Anthropic의 모델이 가장 높은 정확도를 보였지만, 인간의 집단 지성은 모든 모델을 크게 능가했습니다. 이는 의료 다중 모달 진단에서 인간의 집단 지성이 중요함을 시사합니다.

EU AI 법안은 높은 위험 수준의 AI 시스템에 대한 투명성, 강건성, 인간 감독을 요구합니다. 의료 AI에 대한 이 법안은 문서화, 추적 가능성, 책임성을 강조합니다.

연구된 모델들은 의료 작업에 맞춰 설계된 것이 아니며, 임상 환경에서의 유효성을 검증하기 위한 임상 시험이 필요합니다. 이러한 모델들은 훈련 데이터의 불투명성으로 인해 안전성 검토에 한계가 있습니다.

AI 모델은 의료 진단을 증강할 가능성을 보이지만, 그 사용은 신중하고 책임 있는 접근이 필요합니다. AI가 인간의 전문성을 보완하는 방향으로 발전하기 위해 협력이 중요합니다.