Llama 3 기반 저비용 고성능 AI 혁신

혁신적인 AI 모델 개발 방안 제안

텍사스 오스틴 대학교와 NVIDIA의 연구진은 기존 대비 1% 미만의 컴퓨팅 자원으로 Llama 3-8B를 활용해 8-Expert Top-2 MoE 모델을 개발하는 새로운 방안을 제시했습니다.

트랜스포머는 자연어 처리(NLP)와 컴퓨터 비전(CV) 분야에서 크게 발전해왔으나, 그 복잡성 증가로 인해 컴퓨팅 비용도 급증하고 있습니다.

연구진은 Llama 3-8B 구조에 기반한 8-Expert Top-2 모델을 학문적 데이터셋을 활용해 훈련하는 효율적인 프레임워크를 선보였습니다.

이 모델은 상식 추론 및 지식 벤치마크, 예를 들어 MMLU 등의 분야에서 향상된 성능을 발휘했습니다.

훈련을 위한 용량 인자와 라우팅 알고리즘 선택을 확인하기 위해 두 가지 제거 실험을 수행했습니다.

NeMo에서 온라인 업사이클링이 구현되어 사전 훈련된 모델 가중치로 MoE 모델을 효과적으로 초기화 및 훈련할 수 있게 되었습니다.

대규모 언어 모델(LLM)에서 업사이클링을 구현하는 것은 각 노드가 모델 파라미터와 그래디언트를 전부 저장해야 하기 때문에 메모리 문제를 야기할 수 있습니다.

연구진은 네모에서 전체 체크포인트를 장치들에 분산시켜, 각 장치에서 독립적으로 가중치를 업사이클링함으로써 메모리 문제를 해결했습니다.

이 팀의 새로운 온라인 업사이클링 통합 방법은 MMLU 벤치마크에서 2%의 제로샷 정확도 향상을 달성하는 등 높은 성능을 제공했습니다. 이러한 혁신적인 접근 방식은 AI 모델의 효율적이고 확장 가능한 개발에 큰 기여를 하고 있습니다.