Llama 3와 MoE 결합한 혁신적 고성능 AI 모델

새로운 AI 발전: Llama 3와 MoE의 결합

텍사스 대학교 오스틴과 NVIDIA 연구진이 제안한 '업사이클링' 접근법은 8-Expert Top-2 MoE 모델을 Llama 3-8B로 개발하며, 통상적으로 필요한 연산의 1% 미만으로 훈련이 가능하게 했습니다.

자연어 처리(NLP)와 컴퓨터 비전(CV)에 대한 트랜스포머의 영향력은 막대하지만, 모델 복잡성의 증가로 계산 비용이 계속 증가하고 있습니다. Mixture-of-Experts (MoE) 아키텍처는 이러한 한계를 극복할 수 있는 대안으로 떠오르고 있습니다.

MoE 모델 훈련에는 과적합과 라우팅 메커니즘의 불안정성이 큰 도전 과제입니다. 이에 연구진은 Llama 3-8B 아키텍처 기반의 E8T2 MoE 모델을 위한 새로운 훈련 프레임워크를 제안했습니다.

새로운 MoE 모델은 상식 추론 및 지식 벤치마크에서 높은 성능을 보였습니다. 두 개의 절제 실험을 통해 용량 계수와 라우팅 알고리즘의 적절성을 확인했습니다.

온라인 업사이클링을 통해 NeMo 상에서 효과적으로 MoE 모델을 초기화하고 훈련하는 방식을 구현했습니다. 이를 통해 기존에 훈련된 모델을 기반으로 모델의 성능 향상을 이룰 수 있습니다.

대규모 언어 모델(LLMs)에서의 업사이클링은 메모리 문제에 직면할 수 있지만, 연구진은 효율적인 온라인 업사이클링 방법을 통해 이를 해결했습니다. 이 방법은 각 장치에서 독립적으로 가중치를 업사이클링하며, 추가적인 계산과 복사 작업을 최소화합니다.

이번 연구는 고성능 MoE 모델을 효율적으로 훈련할 수 있음을 보여주었습니다. 제로샷 정확도 2% 향상과 46.8%의 모델 FLOPs 활용도를 기록하였으며, 이는 미래의 AI 모델 개발에 있어 비용 효율적이고 확장 가능한 접근법이 될 것입니다.