엔비디아 NeMo Retriever로 AI 정보 수집 강화

이미지

엔비디아, 다국어 AI 지원 강화

엔비디아가 AI 개발자를 위한 새로운 마이크로서비스를 발표했습니다. 이 서비스는 생성 AI 애플리케이션이 여러 언어로 데이터를 저장하고 검색할 수 있도록 지원합니다. 이를 통해 언어 장벽을 허물기 쉽게 만들었습니다.

  • 엔비디아는 다양한 글로벌 시장에서의 활용을 염두에 두고 이 서비스를 개발했으며, 이는 각국 사용자의 요구에 맞춰 사용자 경험을 향상시킬 수 있습니다.
  • 다국어 지원 강화는 데이터의 국제적인 접근성과 사용성을 높이는 데 기여하여 비즈니스 확대 및 협업을 촉진합니다.

NeMo Retriever로 정확한 데이터 처리

엔비디아는 NeMo Retriever를 통해 다국어 지원 기능을 도입하여, 다양한 언어로 데이터를 정확하게 처리할 수 있도록 했습니다. 이 소프트웨어는 다양한 언어와 형식의 데이터를 이해하고 텍스트로 변환할 수 있어 문맥 인식 결과를 제공합니다.

  • NeMo Retriever는 문자열 간의 변환과 스키마 매핑을 최적화하여 데이터 정확성을 개선합니다.
  • 엔비디아는 NeMo Retriever의 처리 속도와 효율성을 높이기 위해 최신 AI 연구 성과와 테크닉을 지속적으로 통합하고 있습니다.

AI 모델을 위한 정보 수집 및 검색

NeMo Retriever를 사용하면 개발자는 텍스트, 문서, 표 등의 소스에서 구조화 및 비구조화 데이터를 추출하여 AI 모델을 위한 정보 수집 및 검색 파이프라인을 구축할 수 있습니다. AI가 이해할 수 있는 언어로 변환하여 벡터 데이터베이스에 저장함으로써 중복을 방지합니다.

  • 이 시스템은 대량의 데이터에서 유용한 정보를 효율적으로 추출함으로써 데이터 큐레이션 과정을 자동화합니다.
  • 벡터 데이터베이스는 중복 데이터의 식별과 관리에 강력하여, 리소스 절약과 성능 최적화에 큰 도움이 됩니다.

임베딩을 통한 관계 파악

임베딩은 단어, 구문 등의 속성과 관계를 파악하는 복잡한 수학적 표현입니다. 예를 들어 “고양이”와 “개”는 둘 다 애완동물로 의미상 가깝지만, “토스터”와 “개”는 덜 관련성이 있습니다.

  • 임베딩 기술은 자연어 처리와 의사결정 시스템의 정확한 이해를 위한 핵심 도구로, 의미론적 관계를 효과적으로 반영합니다.
  • 최신 임베딩 기법은 여러 다차원 벡터를 사용하여 복잡한 구조화된 데이터를 모델링하고, 더 풍부한 표현을 제공합니다.

다국어 데이터 정확성 향상

엔비디아의 Kari Briski 부사장은 다국어 데이터를 자연어로 처리함으로써 정확성을 높일 수 있다고 말했습니다. 대부분의 AI 훈련 데이터가 영어로 되어 있어 번역 시 정확도가 떨어지는 문제를 해결하려고 한다고 설명했습니다.

  • 엔비디아는 AI 언어 모델의 다국어 지원을 강화하여 글로벌 사용자 경험을 중요시하는 개발자들을 지원하려고 합니다.
  • 다국어 AI의 개선은 글로벌 비즈니스의 시장 진입 장벽을 낮추고, 번역 오류로 인한 비즈니스 리스크를 최소화 합니다.

다국어 지원의 필요성

Retriever 출시 초기부터 고객들은 번역 소프트웨어 사용 시 정확성이 떨어지는 문제로 인해 다국어 지원을 요청해 왔습니다. 기업들은 여러 언어로 된 문서를 사용하기 때문에 번역 도구를 거치면 정확도가 더 떨어질 수 있습니다.

  • 다국어 문서의 정확한 처리는 국제 사업 확장과 현지화 전략의 핵심 요소로 인식되고 있습니다.
  • 번역 소프트웨어의 한계를 보완하기 위해 더욱 정교한 AI 기반 언어 처리 시스템 개발이 필수적입니다.

결과 평가 및 순위 조정

NeMo Retriever는 데이터 수집 외에도 결과를 평가하고 재정렬하여 답변의 정확성을 보장할 수 있습니다. 쿼리가 Retriever에 전달되면 벡터 데이터베이스를 검사하고 응답의 관련성을 순위별로 평가하여 정확성을 더합니다.

  • 이 시스템은 장애물 없이 정보에 접근하고 효율적으로 사용할 수 있도록 돕습니다.
  • 결과의 적절성을 평가하여 정보 검색의 질을 높이고, 사용자의 의도를 보다 정확히 반영할 수 있습니다.

대규모 데이터 처리 파트너십

엔비디아는 DataStax와 협력하여 Wikipedia의 콘텐츠를 벡터화하는 프로젝트를 진행했습니다. 엔비디아의 기술을 활용해 10만 개의 데이터를 AI 형식으로 변환하는 데 성공했으며, 이 과정은 기존 30일이 아닌 3일 이내에 완료되었습니다.

  • 벡터화 프로세스는 데이터 처리 및 분석의 효율성을 급격히 향상시켜, 방대한 데이터 세트에 대한 빠른 인사이트를 제공합니다.
  • 성공적인 벡터화는 다양한 비즈니스 응용 프로그램을 지원하며, 대량의 텍스트 데이터를 다루는데 있어 구조적 접근을 용이하게 합니다.

미래를 위한 다중 모달 데이터 지원 준비

현재 NeMo Retriever는 텍스트 검색 및 응답에만 사용되지만, 엔비디아는 이미지, PDF, 비디오 등의 다중 모달 데이터 지원을 준비 중입니다. Briski는 “텍스트를 잘 다룰 수 있다면 다른 모달리티로도 우수한 작업을 수행할 수 있다”고 말했습니다.

  • 다중 모달 데이터 처리는 다양한 데이터 소스 간의 통합적 이해를 가능하게 하여, 종합적 분석 및 인사이트 도출을 돕습니다.
  • 영상, 이미지 등의 지원으로 범위가 확장되면 비즈니스 및 연구 분야에서의 활용 가능성이 크게 증대됩니다.

출처 : 원문 보러가기