효율적인 AI 모델을 위한 새로운 MoE 아키텍처
텍사스 대학 오스틴과 NVIDIA 연구팀이 개발한 혁신적인 “업사이클링” 방법론은 Llama 3-8B를 활용해 8-전문가 Top-2 MoE 모델을 훈련시키면서 전형적인 사전 훈련에 필요한 컴퓨팅의 1% 이내로 감소시킵니다. 이는 대규모 자연어 처리와 컴퓨터 비전 분야의 발전에 중요한 역할을 하는 Transformer의 높은 컴퓨팅 비용 문제를 해결하는 데 기여합니다.
- 이 방법론은 특별히 컴퓨팅 자원이 제한된 환경에서 유용하게 활용될 수 있습니다.
- MoE(Model of Expert)의 구조는 다수의 전문가 네트워크를 통합하여 특정 태스크에 맞게 적응하는 특징을 보입니다.
경제성과 성능을 동시에 잡은 혁신적 방법
연구팀은 Llama 3-8B 아키텍처에 기반한 8-전문가 Top-2 (E8T2) MoE 모델을 학문적 데이터 세트를 통해 효율적으로 훈련할 수 있는 프레임워크를 제안했습니다. 이 방법은 고성능을 유지하면서도 전통적인 사전 훈련에 필요한 컴퓨팅 자원의 1%만을 사용해 성능을 극대화합니다.
- 이러한 접근은 저비용 환경에서도 뛰어난 성능을 발휘하도록 설계되었습니다.
- 모델 성능이 유지되는 동시에 훈련 속도가 크게 향상되어 실용성이 높습니다.
모델 성능 향상을 입증한 다양한 실험
이 모델은 MMLU와 같은 상식적 추론 및 지식 벤치마크에서 성능을 크게 개선했습니다. 또한, 능력 요소 및 라우팅 알고리즘의 선택을 검증하는 두 가지 궤적 실험을 진행했습니다. 이로써 Llama 3와 MoE 합류에서의 성과를 확고히 했습니다.
- 두 가지 궤적 실험은 각각 모델의 세부 구조와 라우팅 전략의 최적화를 목적으로 합니다.
- 이 과정에서 MoE 모델의 일반화 능력이 향상된 것으로 확인되었습니다.
NeMo와의 통합 및 효율적 온라인 업사이클링
온라인 업사이클링은 NeMo에서 구현되어, 사전 훈련된 모델 가중치를 효과적으로 활용할 수 있게 합니다. 이는 모델의 성능을 최대화하며, 대규모 모델 훈련 시 자원 사용을 최적화하는 데 기여합니다.
- NeMo 플랫폼을 통해 다양한 AI 모델과의 호환성을 개선하였습니다.
- 이를 통해 기존 모델 가중치를 재활용하여 연산 효율성을 높일 수 있습니다.
대규모 모델 훈련 시의 독창적인 해결책
훈련 시작은 밀도가 높은 사전 훈련된 언어 모델의 체크포인트로부터 시작합니다. 밀집 모델의 피드포워드 레이어 일부는 MoE 레이어로 변환됩니다. 'N'번 복제된 피드포워드 레이어는 전문가들을 초기화하고, 라우터는 무작위 가중치로 초기화됩니다.
- 이러한 전환 과정은 모델 훈련의 초기 단계에서 계산 자원을 절약합니다.
- 라우터의 무작위 초기화는 초기 학습 과정의 다양성을 높이는 역할을 합니다.
경제적이고 확장 가능한 AI 모델 개발의 길
이 방법으로 사전 훈련된 체크포인트 기반으로 MoE 모델을 더욱 효율적으로 훈련할 수 있습니다. 연구팀은 MMLU 벤치마크에서 zero-shot 정확도가 2% 개선된 것을 확인했으며, 훈련 중 모델 연산량 활용률(MFU) 46.8%를 달성했습니다. 이는 경제적이면서도 확장 가능한 MoE 아키텍처 개발의 신기원을 열었습니다.
- MoE 모델의 확장 가능성은 다양한 산업 분야의 복잡한 문제 해결에 응용될 수 있습니다.
- 이러한 신기원은 향후 AI 연구 및 산업 응용에 새로운 방향을 제시합니다.
이 혁신적인 업사이클링 방법은 AI 모델의 컴퓨팅 및 메모리 문제를 해결하면서 대규모 훈련의 효율성을 극대화합니다. 이를 통해 AI 모델 개발의 새로운 장을 열며 향후 발전에 중요한 전환점을 제시합니다.
출처 : 원문 보러가기