모델 효율성 높이는 Llama 3와 MoE 결합

이미지

Llama 3와 MoE를 결합한 혁신적 모델

미국 텍사스 오스틴 대학교와 NVIDIA의 연구진이 제안한 새로운 접근법은 적은 계산량으로도 높은 성능을 보이는 Llama 3 기반 8-Expert Top-2 MoE 모델을 가능하게 합니다.

  • Llama 3는 대규모 자연어 처리 태스크에서 뛰어난 성능을 제공하는 최신 언어 모델입니다.
  • Multi-expert의 선택적 활성화를 통해 성능을 최적화하며 자원 효율성을 극대화할 수 있습니다.

MoE 모델의 새로운 훈련 프레임워크

연구진은 학술 데이터셋을 활용하여 Llama 3-8B 아키텍처 기반의 8-Expert Top-2 MoE 모델을 훈련할 수 있는 프레임워크를 제안했습니다. 이 방법은 표준 사전 훈련 계산 요구의 1% 이하를 필요로 합니다.

  • MoE의 경제적 효율은 대규모 데이터 활용에도 적용될 수 있습니다.
  • 이 프레임워크는 신속한 모델 배포와 업데이트에 최적화되어 있습니다.

향상된 후속 작업 성능

새로운 MoE 모델은 commonsense reasoning 및 지식 검증 테스트에서 뛰어난 성능을 발휘했습니다.

  • 이러한 성능 향상은 현실적 문제 해결 능력을 강화합니다.
  • 모형은 더욱 복잡한 텍스트 분석 응용에도 적합하게 설계됐습니다.

포괄적인 변수 제거 연구

연구진은 모델 훈련에 활용되는 용적 인자 및 라우팅 알고리즘 선택을 검증하고자 두 가지 변수 제거 실험을 수행했습니다.

  • 용적 인자와 라우팅 알고리즘은 모델 효율성을 직접 영향을 미칩니다.
  • 실험은 추가적인 계산 비효율성 감소에 기여했습니다.

NeMo와의 통합

온라인 업사이클링이 NeMo에 구현되어 사전 훈련된 모델 가중치를 통해 MoE 모델을 효과적으로 초기화하고 훈련할 수 있게 됐습니다.

  • NeMo는 NVIDIA의 확장 가능한 AI 도구로, 다양한 분야에 활용됩니다.
  • 이 통합은 최신 연구 결과의 실제 응용을 용이하게 합니다.

사전 훈련 모델을 활용한 업사이클링

사전 훈련된 밀집 모델의 체크포인트를 활용하여 피드포워드 레이어를 MoE 레이어로 변환하여 각 노드에서의 가중치 복사를 없애고 독립적으로 높은 성능을 발휘할 수 있게 하였습니다.

  • 모델 업사이클링은 기존 자원의 재활용을 통해 비용 절감을 가능하게 합니다.
  • 이 접근법은 모델 훈련 주기를 단축하고, 환경적 영향을 완화합니다.

효율적이고 확장 가능한 AI 모델 개발

이 새로운 업사이클링 방법은 대규모 모델 훈련에 있어서 요구되는 계산 및 메모리 문제를 해결하며, MoE 구조 개발의 비용 효율성과 확장성을 입증했습니다.
연구진의 이러한 혁신적인 방법은 AI 모델의 효율적이고 확장 가능한 발전에 중요한 이정표를 제공하며, 관련 논문은 arXiv에서 볼 수 있습니다.

  • 이러한 발전은 AI의 산업적 적용 범위를 넓힐 것으로 기대됩니다.
  • 관련 논문은 후속 연구의 기초 자료로서도 가치가 있습니다.

출처 : 원문 보러가기