Llama 3와 MoE 결합해 저비용 AI 혁신

텍사스 대학교와 NVIDIA의 혁신적인 AI 모델 향상

텍사스 대학교 오스틴 캠퍼스와 NVIDIA 연구팀은 기존 AI 모델의 연산 비용 문제를 해결할 새로운 방법을 제시했습니다. Llama 3-8B에 기반한 8-Expert Top-2 MoE 모델은 전형적인 사전 학습의 1% 이하 연산만으로 개발됩니다.

자연어 처리(NLP)와 컴퓨터 비전(CV) 분야에서 트랜스포머 모델의 확장성과 효과는 의심할 여지가 없습니다. 그러나 모델의 복잡성 증가로 인해 연산 비용이 급증하였고, 이를 해결하기 위한 대안으로 Mixture-of-Experts(MoE) 구조가 주목받고 있습니다.

연구팀은 Llama 3-8B를 기반으로 한 8-Expert Top-2(E8T2) MoE 모델을 학습시키는 효율적인 방법을 개발했습니다. 이 방법은 학문적 데이터셋을 결합하여 표준 사전 학습의 1% 미만의 연산량만으로 학습이 가능합니다.

개발된 모델은 상식 추론 및 지식 벤치마크, 특히 MMLU에서 향상된 성능을 보여주었습니다. 이는 모델의 적응력 향상과 다양한 작업에서의 성능 증가로 이어졌습니다.

연구팀은 모형의 용량 계수와 라우팅 알고리즘 선택의 타당성을 검증하기 위해 두 가지 절단 실험을 수행했습니다. 이를 통해 더욱 안정적이고 신뢰할 수 있는 성능을 확인했습니다.

온라인 업사이클링은 NeMo에 구현되어 사전 학습 모델의 가중치를 효과적으로 초기화하고 MoE 모델을 학습시킬 수 있게 했습니다. 이는 각 장치에서 가중치를 독립적으로 업사이클링할 수 있도록 지원합니다.

팀의 접근 방식은 MMLU 벤치마크에서 무자극 정확도가 2% 향상되었고 훈련 중 Model FLOPs Utilization(MFU)이 46.8%에 도달하는 성과를 보여주었습니다. 이는 비용 효율적이고 확장 가능한 MoE 아키텍처 개발의 길을 열었습니다.