Llama 3와 MoE 결합 혁신적 AI 모델 구축

혁신적 AI 모델 구축을 위한 새로운 접근법

텍사스 대학교 오스틴과 NVIDIA의 연구팀은 Llama 3-8B와 8-Expert Top-2 MoE 모델을 결합한 새로운 훈련 레시피를 제안했습니다. 이 접근법은 전통적인 사전 훈련에 소요되는 계산량의 1% 미만으로 MoE 모델을 개발할 수 있습니다.

트랜스포머는 자연어 처리(NLP)와 컴퓨터 비전(CV) 분야에서 혁신적인 발전을 이끌어왔습니다. 그러나 모델의 복잡성이 증가하면서 막대한 계산 비용이 문제로 대두되고 있습니다. 따라서 연구자들은 MoE 아키텍처와 같은 대안적인 접근법을 모색하고 있습니다.

MoE 모델을 처음부터 훈련하는 것은 오버피팅과 라우팅 메커니즘의 불안정성 등의 문제로 어려움을 겪고 있습니다. 이러한 문제를 해결하기 위해 연구팀은 Llama 3-8B를 활용한 8-Expert Top-2 MoE 모델을 개발하는 새로운 방법을 도입했습니다.

연구팀은 학문적 데이터셋을 이용해 Llama 3-8B 기반의 E8T2 MoE 모델을 훈련할 수 있는 프레임워크를 제안했습니다. 이 방법은 표준 사전 훈련 계산량의 1% 미만을 필요로 합니다.

이 모델은 MMLU와 같은 상식 추론 및 지식 벤치마크에서 향상된 성능을 보여줍니다. 이는 고성능을 유지하면서도 비용 효율적인 모델 개발을 가능하게 합니다.

연구자는 용량 계수와 라우팅 알고리즘 선택을 검증하기 위해 두 가지 차단 실험을 수행했습니다. 이는 MoE 모델 개발의 신뢰성을 높이는 데 기여합니다.

온라인 업사이클링은 NeMo에 통합되어 사전 훈련된 모델 가중치를 초기화하고 MoE 모델을 효과적으로 훈련할 수 있게 합니다.

대규모 언어 모델(LLM)의 분산 훈련 환경에 업사이클링을 구현하는 데는 독특한 난관이 포함됩니다. 이러한 문제는 장치의 메모리 용량을 초과할 수 있는 총 매개 변수를 처리해야 하기 때문입니다.

연구팀은 NeMo에서 효율적인 온라인 업사이클링 방법을 구현했습니다. 이 방법은 병렬 훈련 구성에 따라 장치에 걸쳐 밀도 체크포인트를 분할하고, 각 장치에서 독립적으로 가중치를 업사이클링하여 추가 계산 및 장치 간 가중치 복사를 제거합니다.

이러한 접근법을 통해 연구팀은 높은 성능의 MoE 모델을 효율적으로 훈련할 수 있음을 입증했습니다. 사전 훈련된 밀도 체크포인트를 활용함으로써 MMLU 벤치마크에서 제로샷 정확도가 2% 개선되었고, 훈련 시 모델 연산유틸리제이션(MFU)이 46.8%에 도달했습니다.

이 혁신적인 방법은 대규모 훈련과 관련된 계산 및 메모리 문제를 해결하며, 효율성과 확장성을 겸비한 AI 모델 개발의 중요한 전환점을 제공합니다.