Llama 3와 MoE 융합으로 효율적인 AI 훈련
University of Texas at Austin과 NVIDIA의 연구진은 새로운 AI 훈련 방식을 제안했습니다. 이들은 Llama 3-8B 모델을 활용해 8-Expert Top-2 MoE 모델을 개발하는 혁신적인 접근법을 선보였으며, 이를 통해 기존의 사전 훈련에 필요한 연산량의 1% 이하로 감소시킬 수 있었습니다.
- Llama 3 모델은 주로 언어 이해 및 생성 작업에 사용되며, 다양한 분야에서 높은 효율성을 보입니다.
- MoE 모델은 각기 다른 전문가 네트워크가 특정 작업을 수행하도록 하여 효율성을 극대화하는 구조를 지니고 있습니다.
복잡한 모델의 비용 문제 해결
Transformers는 자연어 처리(NLP)와 컴퓨터 비전(CV)에서 혁신적인 변화를 가져왔으나 증가하는 복잡성은 높은 계산 비용을 초래했습니다. 이러한 문제를 해결하기 위해 연구진은 Mixture-of-Experts(MoE) 아키텍처를 탐구하고 있으며, 이는 모델 용량을 증가시키면서 연산량의 비례적 증가를 피하고자 합니다.
- Transformer 모델은 대량의 데이터 학습에 적합한 구조로 알려져 있어 대규모 AI 연구에 활용됩니다.
- MoE 아키텍처의 전문가 네트워크는 다양한 연산을 분산 처리하여 계산 능력을 효율적으로 사용합니다.
MoE 모델의 새로운 훈련 방법
기존의 MoE 모델 훈련에는 과적합과 불안정한 라우팅 메커니즘이 어려움으로 작용했습니다. 이를 해결하기 위해 연구진은 Llama 3 Meets MoE: Efficient Upcycling 논문을 통해 획기적인 방법을 소개했습니다. Llama 3-8B 기반의 8-Expert Top-2 (E8T2) MoE 모델을 구축하는 새로운 훈련 프레임워크를 개발했습니다.
- 이 프레임워크는 특정 전문가만 활성화하여 불필요한 계산을 줄이고 학습 효율을 높입니다.
- 정확한 전문가 선택은 모델의 성능 안정성과 향상에 직접적인 영향을 미치게 됩니다.
통합적 성능 향상
연구진의 새로운 MoE 모델은 MMLU와 같은 상식적 추론 및 지식 벤치마크에서 성능이 향상되었습니다. 그들은 타당성을 검증하기 위해 두 가지 절단 실험을 수행하면서 용량 요소와 라우팅 알고리즘을 검토했습니다.
- MMLU 벤치마크는 AI 모델의 언어 이해 및 추론 능력을 측정하는 데 사용됩니다.
- 절단 실험은 모델의 용량과 복잡성을 조정하여 최적의 성능을 이끌어낼 수 있는 방법을 제공합니다.
서버 분산 환경에서의 업사이클링
팀은 NeMo에 온라인 업사이클링을 통합하여 사전 훈련된 모델 가중치를 효과적으로 MoE 모델로 변환하는 방법을 소개했습니다. 이 과정에서 각 피드포워드 레이어는 전문가로 초기화되며 라우터는 랜덤 값으로 설정됩니다. 업사이클링은 메모리 용량에 도전하지만, NeMo의 효율적인 온라인 방식으로 이를 해결했습니다.
- NeMo는 NVIDIA의 AI 연구 프레임워크로, 복잡한 AI 모델의 통합 및 배포를 지원합니다.
- 온라인 업사이클링은 학습 데이터를 지속적으로 업데이트하여 모델 신선도를 유지하는 방식입니다.
효과적인 AI 모델 개발의 변혁
이 혁신적인 "업사이클링" 방법은 메모리와 계산 문제를 해결해 대규모 훈련의 부담을 감소시켰습니다. 이로 인해 MoE 아키텍처의 경제적이고 확장 가능한 개발이 가능해졌으며, 이는 AI 모델의 효율성과 확장성을 크게 향상시키는 중요한 진전을 이룩한 것입니다.
- 새로운 훈련 방식은 데이터 처리량을 높이고 운영 비용을 절감함으로써 AI 연구의 발전을 가속화했습니다.
- 확장성 있는 AI 모델은 다양한 산업 분야에 적용 가능해 AI 기술의 실용성을 넓힐 수 있습니다.
출처 : 원문 보러가기