저비용 고성능 AI 개발 위한 MoE 적용

적은 비용으로 고성능을 실현하는 MoE 모델

텍사스 대학 오스틴과 NVIDIA의 연구자들이 Llama 3-8B를 기반으로 하여, 일반적인 사전 훈련 시 요구되는 연산의 1% 미만만 사용해 8-Expert Top-2 MoE 모델 개발을 가능하게 하는 혁신적인 방법을 제안했습니다.

이 접근 방식은 기존 방법 대비 훨씬 낮은 자원 소모로도 비슷하거나 높은 성능을 발휘하도록 설계되었습니다.
MoE 모델 구조는 데이터의 다양성을 포용하며 효율성을 극대화하기 위해 다양한 전문가 노드를 활용합니다.

Transformers의 혁신적 영향과 과제

Transformers는 자연어 처리(NLP)와 컴퓨터 비전(CV) 분야에서 혁신적인 진전을 이루었으나, 이로 인한 모델의 복잡성 증가로 인해 계산 비용이 크게 상승했습니다. 이러한 문제 해결을 위해 Mixture-of-Experts (MoE) 아키텍처와 같은 대안 접근법이 연구되고 있습니다. MoE는 계산량 증가 없이 모델 용량을 증가시키려고 하지만, 처음부터 MoE 모델을 훈련하는 것은 과적합과 라우팅 메커니즘의 불안정성 등의 어려움이 있습니다.

Transformer 모델들은 대량의 데이터를 다루면서도 높은 정확성을 제공해 인공지능 발전에 크게 기여했습니다.
그러나 이러한 기술의 실제 도입 여부는 복잡성으로 인한 계산 자원 문제로 제한되고 있습니다.

새로운 MoE 훈련 프레임워크

연구팀은 Llama 3-8B 아키텍처 기반의 8-Expert Top-2 (E8T2) MoE 모델 훈련을 위한 새로운 프레임워크를 제안했습니다. 이 방법은 일반적인 사전 훈련 컴퓨팅의 1% 미만의 연산량으로 동일한 성능을 확보합니다.

이는 각기 다른 전문가가 데이터의 특정 측면을 학습하여 불필요한 계산을 최대한 줄이는 방법을 채택하고 있습니다.
과부하가 걸리지 않도록 모델의 구조적 효율성을 높이는 방법을 활용하여 자원 소모를 줄입니다.

다운스트림 작업 성능 향상

연구진이 개발한 모델은 상식 추론 및 지식 벤치마크(MMLU)에서 개선된 성능을 보여주었습니다. 이로 인해 다양한 응용 분야에서 더 나은 성능을 기대할 수 있습니다.

특히, 다양한 분야의 현실적인 적용 가능성을 높이며, 범용 지능 모델 개발에 대한 기대를 증대시킵니다.
MoE 모델의 적응성이 개선되어 특정 작업 및 학습 환경에서 폭넓은 이점을 제공합니다.

철저한 실험 연구

팀은 용량 요인 및 라우팅 알고리즘 선택을 검증하기 위해 두 가지 실험을 수행하여 MoE 훈련 체계의 잠재력과 유효성을 입증했습니다.

실험 결과, MoE 훈련은 기존 모델 대비 더욱 뛰어난 유연성과 성능을 보였습니다.
다양한 하드웨어 환경에서의 실험은 이 방법의 범용성과 응용 가능성을 확인하는 데 기여했습니다.

NeMo와의 통합

이 방법은 미리 훈련된 모델 가중치를 사용하여 MoE 모델을 초기화하고 효율적으로 훈련할 수 있도록 NeMo에 통합되었습니다. 이는 대규모 언어 모델(LLM)의 분산 훈련 환경에서의 독특한 도전 과제를 해결합니다.

NeMo 툴킷의 확장성을 통해 규모에 맞춘 훈련을 효율화할 수 있습니다.
이는 분산된 환경에서도 원활한 훈련이 가능하도록 돕습니다.

온라인 업사이클링을 통한 메모리 문제 해결

이들의 방법은 장치 간 하중 분배를 통해 메모리 요구 사항을 충족하고, 장치마다 독립적으로 가중치를 업사이클링하여 추가적인 계산 및 장치 간 가중치 복사를 배제합니다. 결과적으로 MMLU 벤치마크에서 2%의 향상된 성능과 훈련 중 46.8%의 고정밀도(FLOPs) 활용도를 달성하였습니다.