Llama 3 기반 저비용 고성능 AI 혁신

이미지

혁신적인 AI 모델 개발 방안 제안

텍사스 오스틴 대학교와 NVIDIA의 연구진은 기존 대비 1% 미만의 컴퓨팅 자원으로 Llama 3-8B를 활용해 8-Expert Top-2 MoE 모델을 개발하는 새로운 방안을 제시했습니다.

  • 이 방안은 대규모 데이터 트레이닝을 보다 효율적으로 수행할 수 있는 방법을 제공합니다.
  • 컴퓨팅 자원 절감은 AI 연구의 지속 가능성을 향상시키는 중요한 요소입니다.

트랜스포머의 영향과 비용 문제

트랜스포머는 자연어 처리(NLP)와 컴퓨터 비전(CV) 분야에서 크게 발전해왔으나, 그 복잡성 증가로 인해 컴퓨팅 비용도 급증하고 있습니다.

  • 고성능 하드웨어의 필요성은 기업의 IT 예산에 상당한 부담으로 작용합니다.
  • 비용 문제는 AI 기술 확산에 장애가 될 수 있으며, 해결 방안이 지속적으로 요구됩니다.

효율적인 MoE 모델 훈련 방식

연구진은 Llama 3-8B 구조에 기반한 8-Expert Top-2 모델을 학문적 데이터셋을 활용해 훈련하는 효율적인 프레임워크를 선보였습니다.

  • 이 프레임워크는 훈련 시간 단축과 에너지 효율성을 강조합니다.
  • 고급 전문지식을 가진 다양한 분야의 학문적 데이터셋이 협력적으로 활용됩니다.

고성능 다운스트림 작업 성과

이 모델은 상식 추론 및 지식 벤치마크, 예를 들어 MMLU 등의 분야에서 향상된 성능을 발휘했습니다.

  • 다양한 언어 및 도메인에 걸쳐 탁월한 적응 능력을 보여줍니다.
  • MMLU 같은 벤치마크는 새로운 AI 모델의 성능을 객관적으로 평가하는 데 활용됩니다.

종합적인 제거 연구

훈련을 위한 용량 인자와 라우팅 알고리즘 선택을 확인하기 위해 두 가지 제거 실험을 수행했습니다.

  • 제거 실험은 모델의 최적화 및 성능 향상을 위한 중요한 기법입니다.
  • 이 과정에서 효율성과 안정성 간의 균형을 찾는 것이 핵심 목표입니다.

NeMo와의 통합

NeMo에서 온라인 업사이클링이 구현되어 사전 훈련된 모델 가중치로 MoE 모델을 효과적으로 초기화 및 훈련할 수 있게 되었습니다.

  • NeMo 플랫폼은 AI 개발자들에게 다양한 도구와 자원을 제공합니다.
  • 업사이클링은 기존 모델을 개선하는데 있어 비용 절감과 시간 단축에 기여합니다.

대규모 언어 모델의 분산 훈련

대규모 언어 모델(LLM)에서 업사이클링을 구현하는 것은 각 노드가 모델 파라미터와 그래디언트를 전부 저장해야 하기 때문에 메모리 문제를 야기할 수 있습니다.

  • 대규모 데이터와 복잡한 모델 구조는 높은 저장소 요구사항을 초래합니다.
  • 효율적인 저장 방식이 개발자에게 중요한 고려 사항으로 떠오르고 있습니다.

효율적인 온라인 업사이클링 방법

연구진은 네모에서 전체 체크포인트를 장치들에 분산시켜, 각 장치에서 독립적으로 가중치를 업사이클링함으로써 메모리 문제를 해결했습니다.

  • 이 기술은 네트워크 병목 현상을 줄이고 처리 속도를 향상시킵니다.
  • 장치 간의 데이터 전송 감소는 에너지 소비 감소로 이어질 수 있습니다.

성능과 확장성에서의 새로운 전환점

이 팀의 새로운 온라인 업사이클링 통합 방법은 MMLU 벤치마크에서 2%의 제로샷 정확도 향상을 달성하는 등 높은 성능을 제공했습니다. 이러한 혁신적인 접근 방식은 AI 모델의 효율적이고 확장 가능한 개발에 큰 기여를 하고 있습니다.

  • 증가된 정확도는 실제 활용 가능성을 높이는 중요한 지표입니다.
  • 이러한 성과는 모델링의 확장성과 지속적인 발전에 큰 영향을 미칩니다.

출처 : 원문 보러가기