Llama 3와 MoE의 효율적 결합, AI 혁신의 길

Llama 3과 MoE의 혁신적 결합

텍사스 오스틴 대학교와 NVIDIA의 연구팀은 Llama 3-8B를 활용해 1% 미만의 계산 비용으로 8-Expert Top-2 MoE 모델을 개발했습니다. 이는 맞춤형 훈련 레시피를 통해 가능해졌습니다.

자연어 처리 및 컴퓨터 비전 분야에서 변환자는 그 영향력이 지대하지만 복잡성 증가로 인한 계산 비용 문제가 발생하고 있습니다. 대안으로 Mixture-of-Experts(MoE) 구조가 탐구되고 있습니다.

변형된 방법론을 통해 MoE 모델의 훈련 초기의 어려움을 극복하고 있습니다. Llama 3와 MoE의 결합은 효율적인 '업사이클링' 접근 방식을 제안합니다.

연구팀은 Llama 3-8B를 기반으로 한 8-Expert Top-2 MoE 모델 훈련 프레임워크를 제시했습니다. 이는 일반적으로 필요한 전처리 훈련 계산의 1% 미만 만을 요구합니다.

이 모델은 MMLU와 같은 상식 추론 및 지식 벤치마크에서 성능을 개선하였습니다. 이는 모델의 활용 범위를 넓히는 데 기여합니다.

정밀한 실험을 통해 용량 인자와 라우팅 알고리즘의 선택이 타당함을 검증하였습니다. 이는 훈련의 정밀성을 보장하는 중요한 과정입니다.

NeMo에서의 온라인 업사이클링 구현을 통해 프리트레인된 모델 가중치를 활용하고 MoE 모델을 성능적으로 초기화하고 훈련할 수 있습니다.

밀집 모델의 체크포인트에서 출발하는 방법론이 도입되었습니다. 피드 포워드 계층 일부를 MoE 계층으로 변환하고, 라우터는 무작위 가중치로 초기화됩니다.

대규모 언어 모델의 분산 훈련에서 업사이클링 시도는 각 장치의 메모리 용량을 초과할 수 있습니다. 효율적인 온라인 업사이클링이 이를 해결합니다.

업사이클링을 활용해 뛰어난 MoE 모델 훈련이 가능하다는 것이 입증되었습니다. 이는 MMLU 벤치마크에서 2% 향상된 zero-shot 정확도를 보였습니다.

이 혁신적 방법론은 대규모 AI 모델의 훈련에 드는 비용과 메모리 문제를 해결하며 차세대 모델 구축에 중요한 역할을 할 것입니다.