Llama 3와 MoE 결합 혁신적 AI 모델 구축

이미지

혁신적 AI 모델 구축을 위한 새로운 접근법

텍사스 대학교 오스틴과 NVIDIA의 연구팀은 Llama 3-8B와 8-Expert Top-2 MoE 모델을 결합한 새로운 훈련 레시피를 제안했습니다. 이 접근법은 전통적인 사전 훈련에 소요되는 계산량의 1% 미만으로 MoE 모델을 개발할 수 있습니다.

  • 이 새로운 레시피는 연구자들에게 계산 자원 최적화의 가능성을 크게 열어 주고 있습니다.
  • NVIDIA의 기술력과 텍사스 대학교 연구팀의 협력이 중요한 시너지를 발휘하고 있습니다.

트랜스포머의 발전과 과제

트랜스포머는 자연어 처리(NLP)와 컴퓨터 비전(CV) 분야에서 혁신적인 발전을 이끌어왔습니다. 그러나 모델의 복잡성이 증가하면서 막대한 계산 비용이 문제로 대두되고 있습니다. 따라서 연구자들은 MoE 아키텍처와 같은 대안적인 접근법을 모색하고 있습니다.

  • 트랜스포머는 2017년 발표 이후 AI 연구에 큰 변화를 가져왔습니다.
  • MoE 아키텍처는 모델 효율성 향상을 목표로 다양한 연구가 이어지고 있습니다.

MoE 모델 훈련의 어려움

MoE 모델을 처음부터 훈련하는 것은 오버피팅과 라우팅 메커니즘의 불안정성 등의 문제로 어려움을 겪고 있습니다. 이러한 문제를 해결하기 위해 연구팀은 Llama 3-8B를 활용한 8-Expert Top-2 MoE 모델을 개발하는 새로운 방법을 도입했습니다.

  • 이 새로운 접근법은 MoE 모델의 안정성 문제를 해결하는 데 초점을 두고 있습니다.
  • 라우팅 메커니즘은 모델의 성능 안정성을 좌우하는 중요한 요소로 연구의 핵심입니다.

효율적인 MoE 훈련 프레임워크

연구팀은 학문적 데이터셋을 이용해 Llama 3-8B 기반의 E8T2 MoE 모델을 훈련할 수 있는 프레임워크를 제안했습니다. 이 방법은 표준 사전 훈련 계산량의 1% 미만을 필요로 합니다.

  • 이 프레임워크는 초대규모 데이터셋 처리 효율을 크게 향상시킵니다.
  • 학문적 데이터셋은 다양한 텍스트 패턴을 모델이 학습하는 데 중요한 역할을 합니다.

다운스트림 작업 성능 향상

이 모델은 MMLU와 같은 상식 추론 및 지식 벤치마크에서 향상된 성능을 보여줍니다. 이는 고성능을 유지하면서도 비용 효율적인 모델 개발을 가능하게 합니다.

  • MMLU 벤치마크는 AI 모델의 상식 추론 능력을 평가하는 주요 시험대입니다.
  • MoE 모델은 높은 정확도와 낮은 비용을 동시에 달성하도록 설계되었습니다.

포괄적인 차단 연구

연구자는 용량 계수와 라우팅 알고리즘 선택을 검증하기 위해 두 가지 차단 실험을 수행했습니다. 이는 MoE 모델 개발의 신뢰성을 높이는 데 기여합니다.

  • 용량 계수는 모델의 각 전문가가 사용할 수 있는 자원 양을 결정합니다.
  • 라우팅 알고리즘은 모델 성능의 핵심 변수가 됩니다.

NeMo와의 통합을 통한 효율성 증대

온라인 업사이클링은 NeMo에 통합되어 사전 훈련된 모델 가중치를 초기화하고 MoE 모델을 효과적으로 훈련할 수 있게 합니다.

  • NeMo의 업사이클링은 재사용 가능한 모델 가중치를 활성화하여 효율성을 높입니다.
  • NVIDIA NeMo는 언어 모델링 강화에 특화된 프레임워크로 알려져 있습니다.

대량 모델 훈련 시점의 도전 과제

대규모 언어 모델(LLM)의 분산 훈련 환경에 업사이클링을 구현하는 데는 독특한 난관이 포함됩니다. 이러한 문제는 장치의 메모리 용량을 초과할 수 있는 총 매개 변수를 처리해야 하기 때문입니다.

  • 장치 메모리 한계를 초과하지 않도록 훈련 프로세스 최적화가 필요합니다.
  • 대규모 데이터셋 운용은 메모리 관리의 효율성을 강화하는 주요 도전 과제입니다.

효율적인 온라인 업사이클링 구현

연구팀은 NeMo에서 효율적인 온라인 업사이클링 방법을 구현했습니다. 이 방법은 병렬 훈련 구성에 따라 장치에 걸쳐 밀도 체크포인트를 분할하고, 각 장치에서 독립적으로 가중치를 업사이클링하여 추가 계산 및 장치 간 가중치 복사를 제거합니다.

  • 병렬화된 훈련 구조는 처리 속도를 대폭 높이는 데 기여합니다.
  • 장치 간 가중치 복사 제거는 통신 비용 및 시간 절감을 지원합니다.

성능과 효율성을 동시에 달성

이러한 접근법을 통해 연구팀은 높은 성능의 MoE 모델을 효율적으로 훈련할 수 있음을 입증했습니다. 사전 훈련된 밀도 체크포인트를 활용함으로써 MMLU 벤치마크에서 제로샷 정확도가 2% 개선되었고, 훈련 시 모델 연산유틸리제이션(MFU)이 46.8%에 도달했습니다.

  • MoE 모델 훈련에서 성능 증대 및 자원 효율성은 글로벌 연구의 초점입니다.
  • MFU 증가는 모델의 최적화된 자원 사용을 나타냅니다.

효율적인 대규모 AI 모델 개발의 이정표

이 혁신적인 방법은 대규모 훈련과 관련된 계산 및 메모리 문제를 해결하며, 효율성과 확장성을 겸비한 AI 모델 개발의 중요한 전환점을 제공합니다.

  • 효율적인 자원 활용은 AI 발전의 지속 가능성을 확보하는 열쇠입니다.
  • 이러한 접근법은 향후 AI 기술 발전 방향을 나타내는 중요한 사례로 평가됩니다.

출처 : 원문 보러가기