Llama 3 AI 혁신적 저비용 고성능 모델 개발

이미지

Llama 3 AI로 실현한 효율적 MoE 모델 개발

텍사스 오스틴 대학과 NVIDIA는 Llama 3-8B를 활용하여 전형적 사전 훈련에 필요한 연산량의 1% 미만으로 8-전문가 Top-2 MoE 모델을 개발하는 혁신적 방법을 제안했다. 자연어 처리(NLP)와 컴퓨터 비전(CV) 분야는 Transformers로 인해 급격히 발전했지만, 모델의 복잡성 증가로 인한 연산 비용 문제는 큰 도전 과제로 부상했다.

  • MoE(Mixture of Experts) 모델은 전문가 네트워크를 통해 특정 작업에 맞춤형 분석을 가능케 한다.
  • 연구팀의 혁신은 AI 연구 데이터의 효율적 사용을 지원하며 연산 자원의 절약을 추구한다.

MoE 아키텍처와 효율적 훈련 프레임워크

이 문제를 해결하기 위해 연구진은 모델 용량을 증가시키면서도 계산량을 줄이기 위해 Mixture-of-Experts (MoE) 아키텍처에 주목했다. 하지만, MoE 모델의 훈련에는 경로 메커니즘의 불안정성과 과적합 등의 문제가 발생할 수 있다. 새로운 훈련 레시피로 이러한 문제를 극복하고, Llama 3-8B 아키텍처를 기반으로 한 E8T2 MoE 모델을 효과적으로 훈련할 수 있게 되었다.

  • MoE 아키텍처는 각 전문가가 입력 데이터의 일부를 처리해 계산 부담을 분산시킨다.
  • 경로 메커니즘에서의 불안정성은 전문가 선택 과정의 불확실성에 기인한다.

성능 향상과 간소화된 훈련 과정

이 모델은 일반적인 상식 추론 및 지식 벤치마크에서 향상된 성능을 보이며, 모델의 성능 검증을 위해 다양한 용량 요소와 경로 알고리즘을 실험했다. 또한, 온라인 업사이클을 활용하여 NeMo와의 통합도 실현했다.

  • 성능 검증 실험은 모델의 범용성과 확장성을 입증하는 데 주요했다.
  • NeMo는 확장 가능한 딥러닝 프레임워크로 다양한 AI 응용 프로그램을 지원한다.

업사이클링을 통한 고성능 모델 구현

사전 훈련된 언어 모델의 밀집 체크포인트에서 시작해 MoE 층으로 변환한다. 이는 피드-포워드 층을 여러 번 복제하여 전문가를 초기화하고, 경로 설정자는 랜덤 가중치로 초기화한다. 그러면서 임베딩 층 등 다른 매개변수는 그대로 복사하는 방식이다.

  • MoE 모델은 전문가의 독립적 학습으로 더 다양한 의견을 제공할 수 있다.
  • 업사이클링 전략은 비용 절감과 기존 자원 활용을 극대화한다.

분산 훈련의 구현 및 효과성

분산 훈련 환경에서의 업사이클링은 장치의 메모리 용량을 고려해야 하는데, 각 노드가 모델의 모든 매개변수를 저장해야 한다. NeMo에서 효율적인 온라인 업사이클링 방법을 구현하면서, 밀집 체크포인트를 장치 간에 평행하게 분할하고 그로 인해 가중치를 독립적으로 업사이클링 하여 불필요한 계산과 장치 간 가중치 복사를 제거했다.

  • 장치 메모리 한계 내에서 효율적인 데이터 관리는 필수적이다.
  • 온라인 업사이클링은 실시간 데이터 프로세싱에 따라 모델 성능 최적화를 지원한다.

비용 절감과 성능 유지를 동시에 달성한 혁신적 MoE 모델

이러한 접근 방식을 통해 고성능 MoE 모델의 효율적 훈련이 가능해졌다. 사전 훈련된 밀집 체크포인트를 활용하여 MMLU 벤치마크의 제로샷 정확도가 2% 향상되었고, 훈련 중에는 Model FLOPs Utilization (MFU)이 46.8%를 기록했다. NeMo와 통합된 이 온라인 업사이클링은 강력한 성능을 유지하면서도 효율적이고 확장 가능한 MoE 아키텍처 개발의 새 장을 열었다.

  • 온라인 업사이클링을 통한 성능 유지 전략은 상용 AI 애플리케이션에서도 응용 가능성이 크다.
  • 이러한 기술은 AI 모델 개발에서 기술적 변화를 주도하는 중추적 역할을 한다.

출처 : 원문 보러가기