메타 AI, 100개 언어 실시간 번역 도전

이미지

메타의 SEAMLESSM4T, 실시간 음성 번역 혁신

기술 대기업 메타가 새로운 인공지능 SEAMLESSM4T를 발표했습니다. 이 AI는 말이 입에서 나오는 즉시 101개 언어를 실시간으로 번역할 수 있는 능력을 가지고 있습니다.

  • 메타의 SEAMLESSM4T는 최근 AI 번역 기술의 정점으로, Pangea나 Babel Fish 같은 과거의 번역 시스템을 뛰어넘는 새로운 방향성을 제시하고 있습니다.
  • 이 시스템은 전 세계의 언어 장벽을 허물기 위한 인공지능의 진화의 중요한 단계를 상징하며, 글로벌 커뮤니케이션을 혁신적으로 변화시키고 있습니다.

AI 번역기의 한계 극복

기존 AI 번역기는 텍스트 기반으로 주로 작동하며, 다단계 과정으로 인해 비효율적입니다. 메타의 새로운 AI는 직접 음성을 음성으로 번역해, 번역 과정의 단계를 줄였습니다.

  • 텍스트 기반 번역기는 음성 인식 오류가 번역에 직접적 영향을 미치는 단점이 있으며, SEAMLESSM4T는 이를 최소화하여 번역의 정확성을 높였습니다.
  • 이러한 기술 발전은 세미나, 회의, 국제적인 이벤트에서 실시간 번역의 효용을 대폭 향상시킬 것입니다.

36개 언어로 직접 번역

SEAMLESSM4T는 101개 언어의 음성을 36개 다른 언어로 직접 번역할 수 있습니다. 특히 영어에 국한되지 않고 다양한 언어로 번역이 가능합니다.

  • 이 기술은 영어, 스페인어, 프랑스어, 중국어 등 주요 세계 언어를 포함하며, 인도, 아프리카 및 다른 지역의 다양한 언어들을 포괄하여 접근성을 높이고 포용성을 강화하고 있습니다.
  • 현재 세계 인구의 절반 이상이 사용하는 언어들을 포함한 번역은 국제 비즈니스 및 다문화 교육 분야에서 중요한 도구가 될 것입니다.

공개된 데이터와 코드

메타는 이 AI를 개발하는 데 사용된 모든 데이터와 코드를 비상업적 목적으로 공개했습니다. 이는 연구자들이 이 AI를 기반으로 다양한 언어 쌍이나 기술 용어에 맞게 최적화할 수 있게 합니다.

  • 공개된 데이터 셋은 AI 개발자와 연구자들에게 학습 데이터의 질을 한층 높일 기회를 제공하며, 협력적 발전을 위한 새로운 플랫폼을 창출합니다.
  • 비상업적 사용 하에 코드를 공개함으로써 학계와 산업계 간의 협력이 증진되며, 언어 기술의 발전을 가속화하는 데 기여합니다.

대량 데이터와 병렬 데이터 마이닝

고자원 언어와 저자원 언어의 불균형을 해결하기 위해 메타는 병렬 데이터 마이닝 기술을 사용했습니다. 이 기술은 인터넷에서 언어별로 일치하는 자막과 오디오 스니펫을 찾아 다국어 학습 데이터를 생성합니다.

  • 병렬 데이터 수집은 인터넷 자료, SNS 콘텐츠, 오디오북 등 다양한 온라인 리소스를 통해 이루어지며, 번역 모델의 학습이 다양하고 풍부한 언어 자질을 학습할 수 있도록 합니다.
  • 데이터 마이닝 기술은 특히 저자원 언어에서 다국어 모델의 발전을 견인하며, 신규 언어 추가와 비교적 저비용 학습이 가능해집니다.

성능 평가와 정확성

메타의 AI는 표준화된 테스트에서 기존의 최신 시스템보다 23% 더 높은 정확성을 보였습니다. 다양한 배경 소음과 여러 화자의 목소리를 처리하는 데도 뛰어난 성능을 발휘합니다.

  • 높은 성능 평가의 바탕에는 데이터의 질, 학습 모델의 개선, 그리고 방대한 양의 데이터 처리 능력이 있습니다.
  • SEAMLESSM4T는 특히 공항, 축제, 다국적 회의 같은 소음 많은 환경에서도 효과적으로 작동하여 유연성과 안정성을 증명했습니다.

언어와 문화의 복잡성

언어는 문화적 맥락과 뉘앙스를 반영합니다. SEAMLESSM4T는 성별 편향 및 유해한 언어를 줄이기 위해 다양한 단계에서 모델을 조정했습니다.

  • AI 시스템은 문화적 맥락 이해도가 떨어질 수 있지만 메타는 추가적인 윤리적 검토와 다학문적 접근을 통해 이러한 문제를 해결하려고 합니다.
  • 모델 조정 과정에서 다양한 커뮤니티의 피드백을 적극 반영하고 있어, 더 포괄적이고 공정한 번역을 목표로 하고 있습니다.

AI 번역의 미래

이 AI는 약 7,000개 언어 중 일부만을 다루고 있지만, 메타는 이를 통해 보편 번역기로의 가능성을 열어가고 있습니다. 이러한 노력은 실제 데이터를 활용해 과학 소설 속 기술에 한 발짝 다가서는 길을 열고 있습니다.

  • SEAMLESSM4T는 향후 인공지능의 발전 방향을 제시하며, 기계 번역의 궁극적인 목표인 전 세계 모든 언어 지원으로의 진화를 예고합니다.
  • 이러한 기술 발전은 정보 접근성을 확대하며, 지리적 경계를 넘어선 학술적, 문화적 이해 증진에 기여할 것입니다.

출처 : 원문 보러가기