제로샷 러닝의 개념과 활용 방안

제로샷 러닝의 기본 개념

제로샷 러닝(ZSL)은 AI 모델이 사전에 본 적 없는 객체나 개념을 인식하고 분류하도록 훈련되는 기계 학습 시나리오를 의미합니다. 이는 모델이 직접 학습한 적 없는 카테고리를 예측할 수 있는 능력을 부여합니다.

2020년 기준, 제로샷 러닝 기술은 머신러닝 연구에서 9.3%의 출판 비중을 차지하며, 특히 자연어 처리와 컴퓨터 비전 분야에서 광범위하게 적용되고 있습니다.
최근 연구에 따르면, 제로샷 러닝을 활용한 장면 인식 시스템은 85% 이상의 정확도를 기록하며 인간 수준의 성능을 보여주고 있습니다.

기존 지도 학습의 한계

대부분의 최신 딥러닝 모델은 많은 라벨링된 데이터를 필요로 하는 지도 학습을 통해 훈련됩니다. 이는 데이터 라벨을 통해 가능한 답변의 범위와 정답을 제시하여 모델의 예측을 조정하는 방식입니다. 그러나 이러한 방법은 데이터 레이블링에 많은 비용과 시간이 소요되며, 드문 질병이나 새로운 종과 같은 경우에는 데이터 자체가 부족할 수 있습니다.

2021년 기준, 평균적인 이미지 레이블링 비용은 이미지 당 약 1.2달러에 달하며, 대규모 데이터셋을 구축하는 데 있어 큰 경제적 부담이 됩니다.
드문 질병 진단을 위한 데이터 확보가 어렵다는 점은 AI 기반 의료 솔루션 개발에 큰 제약이 되며, 이런 상황에서 제로샷 러닝이 중요한 대안이 될 수 있습니다.

제로샷 러닝의 필요성

제로샷 러닝은 다양한 의미론적 카테고리에 최소한의 훈련으로 일반화할 수 있는 모델을 개발하는 데 중점을 둡니다. 이는 이미지 인식이나 자연어 처리와 같은 분야에서 유용하며, 데이터 레이블링이 어렵거나 불가능한 상황에서 특히 강점을 발휘합니다.

Google의 제로샷 러닝 연구는 1000가지 다른 언어에 대한 자동 번역 시스템 개발에 기여하며, 언어 자원이 부족한 분야에 큰 도움이 되고 있습니다.
이미지 데이터셋을 활용한 연구에서는, 제로샷 러닝이 새로운 객체 분류에 있어 78%의 정확도로 성능을 보여, 새로운 객체 출현에 민첩하게 대응할 수 있음을 입증했습니다.

제로샷 러닝의 작동 원리

제로샷 러닝은 보조 정보를 활용하여 예측을 수행합니다. 보조 정보는 텍스트 설명, 속성, 임베딩 표현 등으로, 모델은 이러한 정보를 바탕으로 데이터 클래스에 대한 근본적인 이해를 형성합니다.

최근 연구에서는 실시간 언어 처리와 이미지 인식을 통합하여, 제로샷 러닝 모델이 사전 지식 없이도 대상 객체를 설명할 수 있는 성능을 보여주었습니다.
보조 정보로 사용되는 텍스트 설명은 GPT-3와 같은 대형 언어 모델에서 생성되며, 모델의 추론 능력을 대폭 증가시키고 있습니다.

전이 학습과 제로샷 러닝

제로샷 러닝에서는 전이 학습을 통해 기존에 훈련된 모델을 재사용하여 새로운 과제를 수행합니다. 예를 들어, 사전 훈련된 BERT 모델을 사용하여 텍스트 임베딩을 생성하거나, CNN 모델을 활용해 이미지의 중요한 특징을 추출할 수 있습니다.

전이 학습 기반 제로샷 러닝 모델은 새로운 데이터셋에 대해 추가 훈련 없이 90% 이상의 성능 향상을 보여, 시간과 자원을 절약할 수 있습니다.
BERT 및 ResNet과 같은 사전 훈련된 모델들은 다양한 도메인에서 제로샷 러닝 전략의 기반이 되어 성능을 극대화하고 있습니다.

속성 기반 제로샷 러닝

속성 기반 제로샷 러닝은 특정 데이터 클래스의 라벨이 아닌 해당 클래스의 속성에 대한 라벨을 사용하여 모델을 훈련합니다. 이는 새로운 클래스의 속성이 훈련 데이터에 있는 속성과 유사하다면 그 클래스를 예측할 수 있게 해줍니다.

기존 연구에 따르면, 동물의 생물학적 속성을 활용한 속성 기반 제로샷 러닝은 기존 방법보다 15% 높은 정확도를 기록하였습니다.
자동차 인식 분야에서는 색상, 크기, 형태 등의 속성을 기반으로 새로운 차종을 효과적으로 식별하며, 빠르게 변화하는 산업 환경에 적합한 솔루션을 제공합니다.

임베딩 기반 제로샷 러닝

임베딩 기반 방법에서는 데이터 포인트와 클래스 모두를 의미적 임베딩으로 표현하여 서로 간의 유사성을 측정합니다. 이는 K-최근접 이웃 알고리즘과 유사한 원리로, 데이터 샘플의 임베딩과 클래스 임베딩 간의 거리를 측정하여 분류를 수행합니다.

임베딩 기반 모델은 자연어 처리 분야에서 전통적인 문맥 표현보다 20% 이상 성능 향상을 가져온 것으로 증명되었습니다.
특히자연어 처리 및 음성 인식에서, 임베딩 기술은 다국어 지원을 위한 핵심 기술로 자리 잡아, 새로운 언어 데이터 없이도 초기에 무시되던 언어에 대응할 수 있도록 하였습니다.

생성적 AI와 제로샷 러닝

생성적 AI는 보조 정보를 활용하여 샘플 데이터를 생성하는 방법으로 제로샷 러닝 문제를 해결합니다. 예를 들어, LLM을 사용해 텍스트 설명을 생성하거나, GAN을 통해 이미지를 생성하여 모델을 훈련할 수 있습니다.

2022년 데이터에 따르면, 생성적 AI를 활용한 제로샷 러닝 모델은 새로운 클래스 인식에 있어 95% 이상의 성공률을 달성한 사례가 다수 보고되었습니다.
GAN을 사용하여 생성된 데이터는 기존 데이터셋의 30% 이상 향상된 다양성을 제공하며, 모델의 일반화 능력을 극대화합니다.

출처 : 원문 보러가기