Llama 3와 MoE 결합한 고성능 AI 혁신

이미지

Llama 3와 MoE: 새로운 AI 혁신의 서막

텍사스 대학교 오스틴과 NVIDIA의 연구진이 Llama 3와 MoE를 결합하여 고성능 AI 모델을 개발하는 혁신적인 방법을 제안했습니다. 이들은 기존보다 1% 미만의 컴퓨팅으로 8-Expert Top-2 MoE 모델을 훈련하는 방법을 소개했습니다. 이를 통해 AI 모델의 학습 비용을 대폭 절감하면서도 고성능을 유지할 수 있는 방향을 제시했습니다.

  • Llama 3는 Meta AI의 개발로, 언어 모델에 탁월한 성능을 제공하기 위해 설계되었습니다.
  • MoE(Experts Mixture)는 입력에 따라 다른 경로를 활성화함으로써 효율적인 처리 과정을 가능하게 합니다.

Transformers의 한계를 넘다

Transformer 모델은 자연어 처리(NLP)와 컴퓨터 비전(CV) 분야에서 혁신적인 변화를 가져왔습니다. 그러나 모델의 복잡성이 증가하면서 컴퓨팅 비용도 급증하였습니다. 이를 해결하기 위해 연구자들은 computation 없이 모델 용량을 증가시킬 수 있는 MoE 아키텍처에 주목하고 있습니다.

  • MoE는 모델의 일부만을 사용하여 적은 자원으로 처리 효율을 높일 수 있습니다.
  • Transformer's attention mechanism은 대규모 데이터에서 특히 많은 자원을 요구합니다.

MoE 모델 학습의 난제

MoE 모델의 학습은 종종 과적합 및 라우팅 메커니즘의 불안정성이라는 문제에 직면합니다. 이에 대응하기 위해 연구팀은 효과적인 업사이클링 방법을 도입하였습니다. 이를 통해 Llama 3-8B 기반의 E8T2 MoE 모델을 구축할 수 있었습니다.

  • 라우팅 메커니즘은 다양한 경로 선택 문제로 인해 불안정성을 초래할 수 있습니다.
  • 새로운 데이터나 작업에 적응하는 과정에서 과적합은 주요한 도전 과제입니다.

새로운 학습 프레임워크의 도입

연구진은 다양한 학술 데이터셋을 사용하여 Llama 3-8B 기반의 8-Expert Top-2 MoE 모델을 효율적으로 훈련할 수 있는 프레임워크를 제안했습니다. 이 방법은 전통적인 사전 학습 컴퓨팅의 1% 이내로 수행됩니다. 그들은 이를 통해 상식 추론 및 지식 벤치마크에서 향상된 성능을 입증했습니다.

  • 이 프레임워크는 적은 자원의 활용을 극대화하여 효율성을 유지합니다.
  • 학술 데이터셋의 활용은 모델 정확도와 범용성을 높이는 데 기여합니다.

NeMo와의 통합으로 업사이클링 강화

연구진은 NeMo와의 통합을 통해 업사이클링을 구현했습니다. 이를 통해 사전 훈련된 모델 가중치를 사용하여 MoE 모델을 효과적으로 초기화하고 훈련할 수 있습니다. 이 방법은 각 노드가 공동 모델의 전체 복사본을 저장해야 하는 요구사항을 해결함으로써 메모리 문제를 극복할 수 있도록 합니다.

  • NeMo는 NVIDIA의 대화형 AI 프레임워크로, 다양한 AI 모델을 지원합니다.
  • 메모리 효율적 활용은 대규모 모델의 실용성을 향상시킵니다.

효율적인 분산 훈련 구현

업사이클링은 대규모 언어 모델(LLM)의 분산 훈련 설정에서 고유한 도전을 제시합니다. 연구진은 NeMo에서 효율적인 온라인 업사이클링 방법을 구현하였습니다. 이를 통해 각 장치에서 독립적으로 가중치를 업사이클할 수 있어 추가적인 계산 및 장치 간 가중치 복사를 최소화하였습니다.

  • 각 장치의 독립적 처리능력은 성능 개선에 기여합니다.
  • 가중치 복사 최소화는 통신 비용 절감과 학습 속도 향상에 유리합니다.

컴퓨팅 요구 조건의 획기적 감소

이들의 접근법은 고성능 MoE 모델을 효율적으로 훈련할 수 있음을 입증했습니다. 사전 훈련된 밀집 체크포인트를 활용하여 MMLU 벤치마크에서 2%의 개선된 zero-shot 정확도를 달성하고, 훈련 중 모델 FLOPs 활용(MFU) 46.8%를 기록했습니다. 온라인 업사이클링의 통합은 사전 훈련된 가중치의 활용을 간소화하며, MoE 아키텍처의 비용 효율적이고 확장 가능한 개발을 위한 길을 제공합니다.

  • Zero-shot 학습은 새로운 작업에 대한 사전 훈련없이 성능을 평가하는 방법입니다.
  • FLOPs 활용의 증가는 효율성과 처리 속도 개선의 척도로 사용됩니다.

결론

사전 훈련된 모델을 고용량 MoE 아키텍처로 업사이클링하는 이 혁신적인 방법은 대규모 훈련과 관련된 컴퓨팅 및 메모리 문제를 해결합니다. 사전 훈련 컴퓨팅 요구 사항을 크게 줄이면서도 높은 성능을 유지하는 이 방법은 효율적이고 확장 가능한 AI 모델 개발에 큰 도약을 의미합니다.

  • 효율적인 AI 연구와 개발은 더 넓은 접근성과 응용 가능성을 의미합니다.
  • 이 방식은 다양한 도메인에서의 AI 모델 발전과 응용 촉진에 기여할 수 있습니다.

출처 : 원문 보러가기