샤오미, 다국어 AI 번역 성능 향상 전략 발표

이미지

샤오미, 오픈소스 LLM의 다국어 번역 성능 평가

샤오미 연구진은 2025년 2월 7일, 100억 개 미만의 파라미터를 가진 오픈소스 대형 언어 모델(LLM)의 다국어 번역 성능을 평가했다. 이들은 AI 번역 성능을 향상시키기 위한 “최적의 데이터 전략”을 제안했다.

  • 글로벌 번역 시장은 연평균 성장률 7.8%로 2026년까지 56억 달러에 이를 것으로 예상된다. AI 기반 번역은 이 시장에서 중요한 역할을 하며, 특히 다국어 지원 확장은 필수적이다.
  • OpenAI의 연구에 따르면, 다국어 번역 성능 향상은 언어간 의미적 유사성과 데이터의 품질 전반에 크게 의존한다. 샤오미의 연구는 이러한 관점에서 각 언어 모델의 효율성과 비용 대비 효과성을 강조하고 있다.

오픈소스와 폐쇄형 모델의 성능 비교

연구에 따르면, Mistral-7B, Qwen2-7B, LLaMA3-8B, Gemma2-9B와 같은 소형 오픈소스 모델도 번역 품질에서 개선을 보였으나, 여전히 폐쇄형 모델에 비해 부족함을 나타냈다.

  • 구글의 폐쇄형 모델인 Google Neural Machine Translation (GNMT)은 2016년 발표 당시 23개 언어에서 대단히 높은 성능을 보였으며, 현재도 약 100개 이상의 언어를 지원함으로써 시장에서의 우위를 점하고 있다.
  • 오픈소스 모델은 비용 및 접근성 면에서 우수하지만, 데이터 접근의 제한 및 사용자 인터페이스의 복잡성으로 인해 현재 채택률에서 뒤쳐지고 있다. 이를 해결하기 위해서는 오픈소스 커뮤니티의 협력이 필요하다.

번역 성능에서의 Gemma2-9B 우위

Gemma2-9B 모델이 다른 오픈소스 모델을 능가했으며, LLaMA3-8B, Qwen2-7B, Mistral-7B 순으로 뒤를 이었다.

  • Gemma2-9B는 텍스트 데이터의 품질과 다국어 병렬 데이터셋에서의 강력한 성능을 발휘하며, 다양한 언어 쌍에서 우수한 번역 품질을 보여줬다.
  • Gemma2-9B의 성능 향상은 주로 데이터의 다양성 및 데이터셋 구축 방법론의 진보에 기인한다. 또한, 최신의 NLP 알고리즘과 데이터 전처리 기술이 모델에 적용되어 효율성을 높였다.

최적의 데이터 혼합 전략 탐색

샤오미 팀은 단일 언어 및 병렬 데이터의 최적 혼합 전략을 체계적으로 탐구하여 다국어 번역의 최상의 결과를 얻고자 했다.

  • 데이터 혼합 전략의 효과는 언어 쌍 간의 의미적 유사점과 문화적 맥락에 따라 달라질 수 있으며, 이에 대한 연구는 BLEU 점수를 통해 측정된다. 이에 따라 가장 높은 BLEU 점수를 기록한 혼합 전략이 선호된다.
  • 다른 연구진들도 딥러닝 모델의 다국어 성능을 높이기 위한 다양한 데이터 전략을 시도하고 있으며, 이는 점점 더 고도화된 번역 모델 개발로 이어지고 있다.

PFMS 데이터 혼합 전략 제안

병렬 데이터를 우선시하고 단일 언어 데이터를 보조적으로 사용하는 PFMS 전략을 제안하며, GemmaX2-28-9B 모델을 통해 이 전략이 다른 접근 방식보다 뛰어난 성능을 보인다고 밝혔다.

  • PFMS는 병렬 데이터의 직접적인 언어 비교를 통해 정확도를 높이며, 단일 언어 데이터는 문맥 이해를 보조한다. 이러한 접근 방식은 다국어 번역 업계에서 채택률을 높이는 요인으로 작용할 수 있다.
  • 최근 연구에서는 PFMS 전략이 각국의 정서 및 문화적 요소를 반영하는 데 유리하다는 점도 발견되었다. 이는 기계 번역의 품질을 높이며, 사용자 경험 개선에 기여할 수 있다.

향후 목표와 모델의 공개

샤오미는 더 넓은 언어 지원과 향상된 번역 성능을 가진 모델 개발을 목표로 하고 있으며, GemmaX2-28-9B는 현재 Hugging Face에서 이용 가능하다.

  • 향후 몇 년 내에 다국어 AI 시장은 전 세계적으로 8% 이상 성장할 것으로 예상되며, 이는 샤오미와 같은 기술 기업들에게 큰 기회를 제공한다.
  • GemmaX2-28-9B는 오픈소스 플랫폼 Hugging Face에서 다운받을 수 있으며, 이는 연구자 및 개발자들이 자유롭게 사용하고 개선할 수 있는 환경을 제공한다. 이는 오픈소스 AI 번역 기술의 발전에 중요한 이정표가 될 것이다.

출처 : 원문 보러가기