GPT-4, 다국어 의료 노트 분석 능력 평가
최근 Lancet Digital Health에 발표된 연구에서는 GPT-4가 영어, 스페인어, 이탈리아어로 작성된 의료 노트를 분석하여 그 능력을 평가했습니다. 이 연구는 총 56개의 의료 노트를 대상으로 진행되었으며, GPT-4는 사전 정의된 질문에 대한 답변을 생성했습니다.
- GPT-4의 다국어 처리 능력은 의료 현장에서 다양하게 응용될 수 있습니다. 이런 응용은 번역 및 요약을 자동화하여 의료진의 업무를 줄일 수 있습니다.
- 최근 AI의 발전으로 비슷한 연구들이 진행 중이며, 이미 여러 병원에서 파일럿 테스트를 진행하고 있습니다.
의료 노트의 비구조적 서술 형식의 도전
의료 노트는 중요한 임상 정보를 담고 있지만, 비구조적 서술 형식으로 인해 자동 분석에 어려움이 있습니다. 이러한 노트에서 명시적인 정보는 추출하기 쉬우나, 암시적인 맥락을 이해하는 것은 도전 과제입니다.
- 비구조적 데이터의 처리는 자연어 처리(NLP) 분야에서 중요한 과제로, 머신러닝 기술의 진보가 이를 해결하는 데 기여하고 있습니다.
- 많은 의료기관에서 비구조적 데이터를 효과적으로 활용하기 위해 텍스트 마이닝(TDM)을 도입하려고 노력하고 있습니다.
연구에 참여한 기관과 방법론
이번 연구는 미국, 콜롬비아, 싱가포르, 이탈리아의 8개 대학 병원이 참여했습니다. 각 병원은 특정 기준에 따라 의료 노트를 제공했으며, 연구팀은 GPT-4의 성능을 평가하기 위해 Python API를 사용했습니다.
- Python API는 연구 수행 시 자동화된 처리 및 데이터 분석 도구로 널리 사용되며, 복잡한 데이터를 효율적으로 처리하는 데 필수적입니다.
- 연구에 참여한 병원들은 다양한 언어와 문화적 배경을 포함하고 있어 연구 결과의 일반화를 높이는 데 기여했습니다.
GPT-4와 의사 간의 일치도 분석
총 784개의 질문에 대해 GPT-4의 답변이 생성되었고, 의사들은 그 답변에 대한 동의 여부를 평가했습니다. 그 결과, 79%의 경우에서 의사들과 GPT-4의 답변이 일치했습니다.
- 높은 일치도는 AI가 의료 데이터 해석에서 신뢰성을 얻을 수 있음을 시사합니다. 이는 의료진의 의사 결정 지원에 유용할 수 있습니다.
- 일치도가 낮은 경우는 주로 복잡한 의료 상황의 해석에서 발생하며, AI의 지속적 개선을 요구합니다.
언어별 성능 차이와 도전 과제
GPT-4는 스페인어와 이탈리아어 노트에서 각각 88%와 84%의 높은 일치도를 보였으며, 영어 노트에서는 77%의 일치도를 기록했습니다. 이는 미국 의료 노트의 복잡성 때문일 수 있으며, 암시적인 정보를 추론하는 데 있어 한계가 있었습니다.
- 언어별 성능 차이는 언어의 구조적 특성, 데이터와의 친숙도에 의해 영향을 받을 수 있습니다.
- 미국 의료 노트의 복잡한 용어 사용 및 문법적 구조가 언어 처리의 도전 과제로 작용할 수 있습니다.
GPT-4의 명시적 정보 추출 능력
GPT-4는 연령, 비만, 코로나19 상태와 같은 명시적 정보는 잘 식별했으나, 입원 노트 분류에서는 어려움을 겪었습니다. 이는 구조적 단서에 대한 의존 때문일 가능성이 있습니다.
- 명시적 정보는 비교적 표준화되어 있어 AI 모델이 쉽게 처리할 수 있는 특징을 가집니다.
- 향후 연구 방향은 암시적 정보 추출의 정확성을 높이는 데 중점을 두고 있으며, 이 과정에서 AI의 이해력을 향상시킬 필요가 있습니다.
출처 : 원문 보러가기