Llama 3와 MoE의 혁신적 AI 훈련 방법

컴퓨팅 비용 문제 해결을 위한 새로운 접근 방법

텍사스대 오스틴과 NVIDIA의 연구진이 함께 개발한 최신 AI 훈련 방식은 Llama 3-8B와 8-Expert Top-2 MoE 모델을 결합하여, 기존의 대규모 사전 훈련에 필요한 컴퓨팅 자원의 1% 미만으로 개발할 수 있습니다. 이 방법은 높은 컴퓨팅 비용 문제를 해결하는 데 큰 기여를 할 것으로 기대됩니다.

연구팀은 이 접근 방식이 클라우드 서비스 및 대규모 데이터 센터에서의 비용 절감이라는 실질적 이점을 제공한다고 보고합니다.
또한 이 방법은 특히 자원 제한적인 환경에서 AI 연구와 개발을 가능하게 할 수 있어 학계 및 산업계에 큰 파급 효과가 있을 것입니다.

Mixture-of-Experts(MoE)의 도전과 해결책

MoE 아키텍처는 모델의 용량을 증가시키면서도 전통적인 훈련 방식만큼의 컴퓨팅 비용을 유발하지 않는 장점이 있습니다. 그러나 MoE 모델을 처음부터 훈련하기는 쉽지 않으며, 과적합과 불안정한 라우팅 메커니즘과 같은 문제가 존재합니다. 연구팀은 이러한 문제를 해결할 수 있는 "Llama 3 Meets MoE: Efficient Upcycling"이라는 새로운 방식의 훈련 레시피를 제안했습니다.

이 새로운 레시피는 각 전문 모듈이 데이터의 특정 섹션을 처리하도록 정확히 라우팅하여 불안정성을 줄이는 것이 주요 특징입니다.
연구진은 이 방식이 초기 단계에서의 과적합을 방지하고, 지속적인 학습 곡선을 보장할 수 있음을 입증했습니다.

8-전문가 Top-2 모델 훈련을 위한 혁신적 틀

연구진이 제안한 새로운 훈련 틀은 Llama 3-8B 아키텍처를 바탕으로 혼합 데이터 셋을 사용하여 8-Expert Top-2 (E8T2) MoE 모델을 훈련합니다. 이를 통해 전통적인 방법의 1% 미만의 컴퓨팅 자원을 사용하여도, 향상된 다운스트림 태스크 성능을 보여주며, 상식 추론 및 지식 벤치마크에서 뛰어난 성능을 발휘합니다.

이 틀은 다양한 데이터셋과 언어적 과제를 아우르며, 여러 분야에서 적용 가능한 범용 모델의 기초로 활용됩니다.
특히 자연어 처리 및 이미지 분류 영역에서 혁신적인 결과를 도출하여, 다양한 AI 응용 프로그램에서의 활용 가능성을 높였습니다.

온라인 업사이클링의 NeMo 통합

연구진은 온라인 업사이클링을 NeMo에 통합했습니다. 이를 통해 사전 훈련된 모델의 가중치를 초기화하고 MoE 모델을 효과적으로 훈련할 수 있습니다. 이 방법은 대규모 언어 모델(LLM)의 분산 훈련 환경에서의 업사이클링을 구현하며, 각 장치가 공유 모델 파라미터와 기울기의 전체 복사본을 저장해야 하는 문제를 해결합니다.

NeMo의 통합은 실시간 데이터 스트리밍 처리와 같은 복잡한 태스크에도 적응할 수 있는 유연성을 제공합니다.
이는 모델 업데이트 주기를 단축하고 배치 간의 일관성을 유지하여 대규모 서비스에서의 운영 효율성을 높입니다.

효율적인 훈련과 성과

이 팀의 접근 방식은 Dense 체크포인트를 활용해 높은 성능의 MoE 모델을 효율적으로 훈련할 수 있음을 증명했습니다. 이를 통해 MMLU 벤치마크에서 2%의 zero-shot 정확도 개선과 MFU 46.8%를 달성했습니다. NeMo에 온라인 업사이클링을 통합함으로써 사전 훈련된 가중치를 쉽게 사용할 수 있도록 하여 MoE 아키텍처의 효율적이고 확장 가능한 개발의 길을 열었습니다.

Dense 체크포인트는 데이터 손실을 최소화하여 모델의 연속성을 보장하며, 복잡한 환경에서도 안정성을 제공하도록 설계되었습니다.
이러한 성과는 특히 고속의 데이터 파악과 높은 수준의 예측 정확도가 요구되는 타임크리티컬 애플리케이션에서 장점을 발휘합니다.

재활용을 통한 AI 모델의 효율성 강화

사전 훈련된 모델을 고용량의 MoE 아키텍처로 재활용하는 이 혁신적인 방법은 대규모 훈련의 컴퓨팅 및 메모리 문제를 해결합니다. 사전 훈련에 필요한 컴퓨팅 자원을 크게 줄이면서도 높은 성능을 유지하는 이 접근 방식은 효율적이고 확장 가능한 AI 모델 개발을 위한 중요한 진전을 이뤘습니다.