바이오 의료 자연어 처리 모델 벤치마킹

바이오메디컬 문헌의 급증과 자동화 도전 과제

바이오메디컬 문헌의 빠른 증가로 인해 수작업으로 지식을 정리하고 통합하는 데 어려움이 있습니다. 하루에만 5,000개의 새로운 논문이 추가되는 상황에서, 이러한 작업은 더욱 복잡해집니다. 특히 COVID-19와 같은 전문 분야에서는 매월 10,000개의 논문이 더해지면서 특정 용어의 중의성 문제도 커지고 있습니다.

PubMed를 비롯한 바이오메디컬 데이터베이스에는 이미 3,400만 건의 논문이 등록되어 있으며, 연간 약 120만 건이 추가됩니다.
중의성 문제는 특히 생물학적 항목 명명법에서 두드러지며, 예를 들어 같은 유전자가 다양한 이름으로 불리거나, 서로 다른 유전자가 유사한 이름을 가질 수 있습니다.

BioNLP를 통한 자동화의 가능성

바이오메디컬 자연어 처리(BioNLP)는 수작업을 자동화하여 지식 발견을 지원합니다. BioNLP는 대규모 바이오메디컬 문헌을 활용해 생의학적 의미를 비지도 학습으로 파악하는데, 특히 BERT와 BART와 같은 모델이 이 분야에서 강력한 성능을 보여주고 있습니다.

PubMedQA 데이터셋은 BioNLP 연구에 자주 사용되며, 여기에 대한 작업은 자연어 처리 모델이 복잡한 의학적 질문을 이해하고 해결하는 능력을 테스트합니다.
2020년 기준, SciBERT는 BERT 기반의 과학 문헌 전용 모델로, 자연어 이해 분야에서 바이오메디컬 데이터를 효과적으로 처리할 수 있음을 입증했습니다.

LLMs와 BioNLP의 연계

GPT-3와 GPT-4 같은 대규모 언어 모델(LLM)은 다양한 도메인에서 뛰어난 성과를 보여주지만, BioNLP에서의 성능은 아직 명확하지 않습니다. 특히, LLM은 의학적 질문에 대한 답변과 같은 추론 관련 작업에서 뛰어난 성과를 보이지만, 정보 추출 작업에서는 전통적인 미세 조정 모델보다 떨어지는 성과를 보입니다.

LLM의 비효율성을 일부 개선하기 위해 ‘Adapter’ 및 ‘Prompt Tuning’ 기술이 연구되고 있으며, 이는 LLM의 성능을 높이면서도 자원을 덜 사용하는 방법으로 주목받고 있습니다.
예를 들어, BlueBERT는 임상의학적 환경에서 더 나은 성능을 보이도록 기존 BERT 모델을 특화시킨 사례로, 이는 특정 분야에서는 비슷한 접근이 필요함을 시사합니다.

평가 및 결과

BioNLP에 대한 LLM의 효과를 체계적으로 평가한 결과, SOTA(최고 수준의) 미세 조정 기법이 대다수의 BioNLP 작업에서 LLM을 능가했습니다. 특히 정보 추출 작업에서 40% 이상 더 높은 성과를 보였습니다. 그러나 폐쇄형 LLM인 GPT-4는 추론 관련 작업에서 두드러진 성과를 보였으며, 이는 고비용과 맞물려 있는 것으로 나타났습니다.

TREC-COVID 같은 벤치마크에서 전통적인 BioNLP 모델들이 LLM에 비해 더 일관된 정보 추출 결과를 제공하는 경우가 보고되었습니다.
GPT-4의 경우, 비공식 보고서에 따르면 모델의 연산 비용이 GPT-3보다 최대 10배 이상 높다는 점이 한계로 언급되며, 이는 고성능을 위한 경제적 부담으로 작용합니다.

한계와 개선 필요성

BioNLP에서 LLM을 사용하는 데에는 여러 한계가 있으며, 이는 데이터 및 평가 패러다임의 적응을 필요로 합니다. LLM의 응답에서 발생하는 일관성 문제, 누락 정보, 환각 등을 해결하는 것이 중요한 과제로 떠오르고 있습니다. 이러한 문제를 해결하기 위한 공동체의 노력이 필요합니다.