희소 전문가 혼합 모델 최적화 확장 법칙

언어 모델 확장을 위한 새로운 접근법

언어 모델의 성능을 높이기 위한 혁신적인 방법으로 희소 전문가 혼합 모델(Mixture-of-Experts, MoEs)이 주목받고 있습니다. MoEs는 모델의 파라미터 수를 늘리면서도 예제당 계산량을 최소화할 수 있는 장점이 있습니다.

MoEs의 주요 이점은 특정 입력에 대해 관련된 전문가만을 활성화함으로써 계산 자원을 줄이는 것입니다. 구글의 Switch Transformers는 이 방법을 통해 기존 모델보다 최대 10배의 효율성을 보였습니다.
GPT-3와 같은 대규모 언어 모델은 1750억 개의 파라미터를 갖추고 있어 개발 및 운영 비용이 높습니다. MoEs는 이를 개선하기 위한 대안으로 작은 규모 모델에서 비슷한 성능을 달성할 수 있는 가능성을 시사합니다.

파라미터와 계산량의 상관관계

언어 모델의 용량 확장은 모델 파라미터 수와 예제당 연산량의 두 가지 요소로 정의됩니다. 일반적으로 이 두 요소를 모두 증가시키지만, 이들의 상호작용과 결합된 용량 기여도는 완전히 이해되지 않았습니다.

모델 크기와 연산량 사이의 관계는 다양한 과제 수행 시 모델의 정확도에 비례합니다. 연구에 따르면, 같은 구조일 경우 모델 크기를 두 배로 늘리면 대략 1.8배의 성능 향상이 나타났습니다.
머신러닝 연구는 파라미터의 과도한 증가는 훈련 시간과 비용을 불필요하게 증가시킬 수 있음을 보여줍니다. 이로 인해 산업계에서는 적정한 파라미터 수를 결정하는 데 많은 관심을 기울이고 있습니다.

희소성 수준이 성능에 미치는 영향

우리는 MoEs의 희소성 수준, 즉 비활성화된 파라미터의 비율이 모델의 성능에 미치는 영향을 조사했습니다. 희소성 수준을 조절함으로써 훈련 효율성과 모델 성능을 모두 향상시킬 수 있는 최적의 지점을 찾았습니다.

연구에 따르면, 희소성을 50%로 설정할 경우 연산량은 절반 이하로 감소하면서도 성능의 90% 이상을 유지할 수 있었습니다. 이는 특히 대규모 데이터 세트에서의 비용 효율성을 증가시킵니다.
다양한 분야의 AI 모델에서 희소성을 적용한 결과, 필요에 따라 동적으로 파라미터를 활성화하여 최적의 성능을 달성하는 전략이 개발되고 있습니다. 이를 통해 데이터 효율적 훈련이 가능해졌습니다.

작고 효율적인 언어 모델 설계

대규모 언어 모델은 다재다능하지만 작은 추론 예산에는 적합하지 않습니다. 반면 작은 모델은 효율적인 추론이 가능하나 용량이 낮아 특정 도메인에 한정된 성능을 보입니다. 따라서 작은 모델의 특화된 정확도를 높이기 위한 방법을 탐구합니다.

BERT의 사전 훈련 및 파인튜닝을 통해 작은 모델에서도 도메인 특화 성능을 크게 향상시키는 방법이 존재합니다. 예를 들어, 법률 텍스트 처리 분야에서 BERT의 커스텀 모델은 90% 이상의 정확도를 보였습니다.
최근에는 작은 모델에서도 동적 파라미터 효율성을 구현하여 성능을 극대화하는 데 집중하고 있습니다. 특히 도메인별 데이터셋을 활용한 전이 학습 기법이 주목을 받고 있습니다.

모델 압축 기술의 최신 연구

현대의 대규모 언어 모델은 뛰어난 성능을 자랑하지만, 막대한 계산 및 메모리 요구사항을 동반합니다. 최근 연구에서는 모델의 압축(가지치기 및 양자화)을 통해 50-60%의 희소성을 달성하고, 가중치 비트 폭을 3~4비트로 줄이며 성능 저하 없이 모델을 경량화하는 데 성공했습니다.

가지치기 기술은 불필요한 노드나 연결을 제거하여 모델 크기를 줄입니다. 최근 연구들은 이는 최대 70%까지 모델 크기를 감소시키면서도 성능 손실을 최소화하는 방법으로 간주하고 있습니다.
양자화 방법은 메모리 사용량과 연산 속도를 크게 향상시킵니다. TernaryBERT는 3비트 양자화를 활용해 파라미터 수를 절반 이하로 줄이면서도 뛰어난 정밀도를 기록한 사례로 유명합니다.

출처 : 원문 보러가기