Llama 3와 MoE 결합해 저비용 AI 혁신

이미지

텍사스 대학교와 NVIDIA의 혁신적인 AI 모델 향상

텍사스 대학교 오스틴 캠퍼스와 NVIDIA 연구팀은 기존 AI 모델의 연산 비용 문제를 해결할 새로운 방법을 제시했습니다. Llama 3-8B에 기반한 8-Expert Top-2 MoE 모델은 전형적인 사전 학습의 1% 이하 연산만으로 개발됩니다.

  • 연구는 AI 모델의 비용 효율성을 높이기 위해 진행되었으며, 산업 전반에 걸쳐 다양한 응용 가능성을 제시합니다.
  • NVIDIA의 기존 기술력을 활용하여 더욱 강력한 컴퓨팅 환경을 조성, Llama 3-8B의 역량을 극대화합니다.

기하급수적으로 증가하는 모델 복잡성에 대한 도전

자연어 처리(NLP)와 컴퓨터 비전(CV) 분야에서 트랜스포머 모델의 확장성과 효과는 의심할 여지가 없습니다. 그러나 모델의 복잡성 증가로 인해 연산 비용이 급증하였고, 이를 해결하기 위한 대안으로 Mixture-of-Experts(MoE) 구조가 주목받고 있습니다.

  • 새로운 해결책은 복잡한 계산을 효율화하여 AI 모델의 실용성을 높이는 데 중요한 발전으로 평가됩니다.
  • MoE 구조는 다양한 분야에서 모델 임베딩을 최적화, 정교한 데이터 해석을 가능하게 합니다.

혁신적인 MoE 교육 프레임워크 개발

연구팀은 Llama 3-8B를 기반으로 한 8-Expert Top-2(E8T2) MoE 모델을 학습시키는 효율적인 방법을 개발했습니다. 이 방법은 학문적 데이터셋을 결합하여 표준 사전 학습의 1% 미만의 연산량만으로 학습이 가능합니다.

  • 이러한 프레임워크는 기존 학습 모델보다 비용 절감 효과가 뛰어나며, 접근성을 확장하는 데 기여합니다.
  • 학습 효율성을 극대화하여, 환경에 미치는 영향을 최소화하는 지속 가능한 AI 솔루션을 제공합니다.

향상된 후속 작업 성능

개발된 모델은 상식 추론 및 지식 벤치마크, 특히 MMLU에서 향상된 성능을 보여주었습니다. 이는 모델의 적응력 향상과 다양한 작업에서의 성능 증가로 이어졌습니다.

  • 상식 추론과 벤치마크 테스트에서 도출된 결과는 플랫폼 간의 통합과 협업에 대한 가능성을 시사합니다.
  • 각 작업 영역에서 성능 향상이 이루어져, AI의 현실 세계 적용 범위가 크게 확장될 것입니다.

철저한 분석 연구 수행

연구팀은 모형의 용량 계수와 라우팅 알고리즘 선택의 타당성을 검증하기 위해 두 가지 절단 실험을 수행했습니다. 이를 통해 더욱 안정적이고 신뢰할 수 있는 성능을 확인했습니다.

  • 실험 데이터를 바탕으로, 알고리즘의 정확성과 일관성을 더욱 강화할 수 있는 방안을 지속적으로 모색하고 있습니다.
  • 이러한 접근 방식은 추후 연구 및 개발 방향에 대해 중요한 통찰을 제공하여 미래 AI 모델의 혁신을 도모합니다.

NeMo를 통한 온라인 업사이클링 통합

온라인 업사이클링은 NeMo에 구현되어 사전 학습 모델의 가중치를 효과적으로 초기화하고 MoE 모델을 학습시킬 수 있게 했습니다. 이는 각 장치에서 가중치를 독립적으로 업사이클링할 수 있도록 지원합니다.

  • 이러한 통합은 지속적인 모델 업그레이드를 가능하게 하여, AI의 유연성을 강화합니다.
  • 가중치 초기화의 효율성을 높여, 다양한 운영 환경에서 신속한 적응을 돕습니다.

고성능 MoE 모델 효율적 학습 성과

팀의 접근 방식은 MMLU 벤치마크에서 무자극 정확도가 2% 향상되었고 훈련 중 Model FLOPs Utilization(MFU)이 46.8%에 도달하는 성과를 보여주었습니다. 이는 비용 효율적이고 확장 가능한 MoE 아키텍처 개발의 길을 열었습니다.

  • MoE 아키텍처의 성공적인 확장은 향후 대량 데이터 처리에 있어 비용 및 자원 소모를 크게 줄일 것입니다.
  • 이러한 성과는 AI가 도전하는 다양한 분야의 복잡한 문제를 해결하기 위한 지속 가능한 기반을 마련합니다.

출처 : 원문 보러가기