제로샷 학습: 사전 데이터 없이 학습하는 AI

[제목]=
제로샷 학습: 데이터 없이 새로운 지식을 익히는 AI

[원문]=

제로샷 학습이란 무엇인가?

제로샷 학습(Zero-shot Learning, ZSL)은 AI 모델이 사전 학습 데이터 없이 새로운 객체나 개념을 인식하고 분류할 수 있도록 하는 기법입니다. 이는 AI가 사전의 학습 없이도 새로운 카테고리를 처리할 수 있도록 합니다.

최근 논문에 따르면 제로샷 학습을 통한 모델은 다양한 언어로의 번역에서도 높은 정확도를 나타내고 있습니다. 이는 다국어 자연어 처리에서 특히 유용합니다.
2021년의 한 연구는 제로샷 학습을 이용하여 기존 데이터로 미지의 곤충 종을 분류하는 데 성공했으며, 이는 생물학적 연구 분야에서도 파급 효과가 큽니다.

대부분의 최신 딥러닝 모델은 지도학습을 통해 훈련됩니다. 그러나 대량의 라벨링된 데이터가 필요해 시간과 비용이 많이 듭니다. 반면 제로샷 학습은 이러한 제한을 극복해 새롭고 드문 데이터를 처리할 수 있습니다.

2022년 AI 인더스트리 리포트에 따르면, 라벨링 데이터의 구축 비용은 전체 AI 프로젝트 예산의 최대 80%까지 차지할 수 있습니다. 제로샷 학습은 이 비용을 크게 절감할 수 있습니다.
특히 드문 언어의 데이터셋을 구하기 어려운 번역과 다국어 분류 작업에서 제로샷 학습은 획기적인 절감을 제공합니다.

N-샷 학습은 적은 수의 라벨링 예제를 이용해 학습하는 방법입니다. 제로샷 학습은 이러한 예제 없이도 새로운 카테고리를 예측하도록 합니다.

최근 ImageNet 챌린지에서는 5-샷 학습 모형들이 특정한 물체 인식에서 95% 이상의 정확도를 나타냈지만, 제로샷 학습은 그와 비슷한 수준의 성능을 기록하였습니다.
Google의 연구 결과, 특정 부류의 이미지 분류에 있어 제로샷 모델은 10-샷 학습과 비교해 유사한 수준의 성능을 보여줬습니다.

제로샷 학습은 컴퓨터 비전과 자연어 처리(NLP)에서 주목받고 있습니다. 이는 모델이 보지 못한 데이터 클래스에서도 정확한 예측을 가능하게 합니다.

2023년 한 보고서에 따르면 자연어 처리 분야에서 제로샷 학습을 활용한 모델은 30개 이상의 언어를 이해하고 처리할 수 있는 능력을 보여주었습니다.
컴퓨터 비전에서 Zero-Shot Image Classification(ZSIC)은 새로운 물체 인식이나 상황 변화에 즉각 대응할 수 있어 스마트 시티와 같은 실시간 응용 환경에서 강력한 도구로 꼽힙니다.

일반화된 제로샷 학습(GSZL)은 모델이 보지 못한 클래스와 본 클래스를 모두 정확히 분류할 수 있도록 합니다. GSZL은 특히 보지 못한 클래스에 대한 편향 문제를 해결해야 합니다.

현재 연구에 따르면 GSZL 모델이 새로운 데이터를 어떻게 처리하는지에 관한 지속적인 연구가 이루어지고 있으며, 이 연구는 편향 제거를 위한 알고리즘의 발전에 기여하고 있습니다.
2020년 기준 GSZL 관련 논문의 수는 매년 20% 이상 증가하고 있으며, 이는 해당 분야의 연구와 산업적 관심이 증가하고 있음을 시사합니다.

제로샷 학습은 보조 정보를 사용하여 예측을 수행합니다. 이는 텍스트 설명, 속성 및 임베딩 표현 등 다양한 형태로 제공됩니다.

보조 정보로 가장 널리 사용되는 임베딩은 Word2Vec과 GloVe로 자연어 처리 작업에서 실질적인 자료로 많이 활용됩니다. 이는 2023년 기준 전 세계적으로 75% 이상의 모델에서 사용되고 있습니다.
속성 기반 보조 정보는 특히 제품 추천 시스템에서 사용되며, 이는 고객 프로필에 대한 개별 맞춤형 결과를 제공하는 데 기여합니다.

속성 기반 제로샷 학습은 데이터 클래스의 특징을 학습하여 새로운 클래스를 인식합니다. 그러나 모든 클래스를 단일 속성 벡터로 설명할 수 있다는 가정에 기반하여, 한계가 존재합니다.

2022년 한 연구에 따르면, 속성 기반 모델은 새로운 동물 종을 인식하는 데 있어 85% 이상의 정확도를 보였으나, 복잡한 개념들은 여전히 성능이 낮았습니다.
속성의 결합 및 강화학습 기법을 통해 정확도를 높이기 위한 다양한 연구가 진행 중이며, 이는 속성의 제한성을 극복하는 데 도움을 줄 수 있습니다.

임베딩 기반 방법은 데이터를 벡터 형태로 변환하여 클래스 간 유사성을 측정합니다. 이는 다양한 데이터 형태와 크기의 비교를 가능하게 합니다.

2023년에 진행된 실험에서는 임베딩 기반 ZSL 모델이 새로운 언어의 문장을 이해하고 답변을 생성하는 데 있어 평균 92%의 정확도를 기록하였습니다.
Facebook AI Research의 연구에서는 고차원 임베딩 공간을 활용하여 유사성 기반의 이미지 인식에서 개선된 성능을 입증했습니다.

대조 학습은 서로 다른 모델의 임베딩을 정렬하여 유사성을 높입니다. 이는 이미지와 텍스트 임베딩의 대조 손실을 최소화하는 방식으로 수행됩니다.

생성적 AI는 보조 정보를 사용하여 샘플 데이터를 생성합니다. 이는 기존의 지도학습 문제로 변환해 학습을 진행할 수 있도록 합니다.

생성적 AI 모델인 DALL-E는 텍스트 설명을 사용하여 이미지 생성 작업에서 혁신적인 결과를 보여줬습니다. 이는 ZSL 환경에서 새로운 데이터 생성이 중요한 역할을 한다는 것을 보여줍니다.
OpenAI의 GPT-3 또한 보지 못한 문서의 내용 추론에서 제로샷 기법을 이용하여 뛰어난 성능을 보였습니다.

생성적 모델은 안정성 문제와 품질 문제를 가지고 있지만, VAE와 GAN의 결합으로 이러한 문제를 개선할 수 있습니다. 이는 제로샷 학습 환경에서 유망한 결과를 제공합니다.

2023년 연구에서는 VAE-GAN의 통합이 클러터링 문제를 60% 이상 감소시켰고, 이는 기존 GAN 기반 이미지 생성의 품질을 크게 향상시킨 것으로 나타났습니다.
생성적 모델의 새로운 구조적 변형 연구가 진행 중이며, 이는 보다 다양한 형태의 데이터를 보다 높은 품질로 생성할 수 있도록 기여하고 있습니다.