GPT-4, 임상 진단 지원 도구 가능성 연구

대형 언어 모델이 임상 진단에서 활용될 수 있는 가능성을 제시한 최근 연구 결과가 발표되었습니다. 연구는 GPT-4의 성능이 진단 과정에서 의사들에게 유익할 수 있음을 보여줍니다.

물리적 검사 지침 제시의 중요성

물리적 검사는 환자의 건강 상태를 파악하는 중요한 도구입니다. 그러나 특정 조건의 복잡성을 다루기 위한 전문적인 훈련이 부족할 경우, 중요한 증상을 간과할 위험이 있습니다.

기존 연구는 대형 언어 모델(LLM)을 진단 보조 도구로 사용하는 것에 중점을 두었지만, 물리적 검사 분야에서는 아직 활용되지 않았습니다. 이 연구는 이러한 공백을 메우기 위해 GPT-4가 환자 증상에 기반한 물리적 검사 지침을 제시하는 능력을 평가했습니다.

초기 경력의 의료 전문가는 제한된 경험으로 인해 적절한 맞춤식 물리적 검사를 수행하는 데 어려움을 겪을 수 있습니다. 대형 언어 모델은 이런 상황에서 의료진을 도와 진단 능력을 향상시킬 수 있습니다.

연구진은 증상에 따라 물리적 검사 지침을 제시하도록 GPT-4를 사용했으며, 세 명의 임상 의사가 그 정확성과 전반적 품질을 평가했습니다. 결과적으로 GPT-4는 80% 이상의 점수를 기록했으며, 가장 높은 점수를 받은 경우는 "운동 시 다리 통증"이었습니다.

GPT-4는 많은 면에서 잘 수행했지만, 진단의 정확성을 나타내는 중요한 부분에서 가끔 모호하거나 누락되는 경우가 있어 인간의 판단이 여전히 필요하다는 점을 강조했습니다.

연구진은 다양한 임상 시나리오에 맞춰 대형 언어 모델을 미세 조정하여 진단 능력의 공백을 메우는 데 도움을 줄 수 있을 것으로 기대하고 있습니다. LLM은 임상 결정 지원에서 점점 더 중요한 역할을 할 수 있습니다.