NVIDIA, 새로운 AI 모델 OMCAT 공개

NVIDIA, 새로운 AI 모델 OMCAT 발표

NVIDIA의 연구팀은 새로운 AI 모델 OMCAT(Omni Context Aware Transformer)을 발표했습니다. 이 모델은 시각과 청각 데이터를 결합하여 복잡한 이벤트 전환을 포착하는 데 중점을 두고 있습니다.

OMCAT은 AI 분야의 최신 연구 성과로, 멀티모달 처리 능력을 크게 향상시킴으로써 다양한 산업에서의 활용 가능성이 기대됩니다.
NVIDIA는 데이터 처리와 고성능 컴퓨팅 분야에서의 전문성을 살려, OMCAT을 통해 더욱 정밀한 데이터를 제공할 것을 목표로 하고 있습니다.

OMCAT의 개발을 위해 연구팀은 OCTAV(Omni Context and Temporal Audio Video)라는 독창적인 데이터셋을 만들었습니다. 이 데이터셋은 오디오와 비디오를 통해 이벤트 전환을 효과적으로 캡처하는 데 초점을 맞추고 있습니다.

OMCAT은 RoTE(Rotary Time Embeddings)를 활용하여 시계열 정렬과 계산 효율성을 개선했습니다. 이를 통해 음성과 영상 간의 정밀한 시간 정렬이 필요한 작업에서 강력한 성능을 발휘합니다.

연구팀은 오디오와 시각적 특성에 절대적 및 상대적 시간 정보를 내장하여 모델의 시간 인식을 향상시키는 새로운 접근법을 도입했습니다. 이 전략은 멀티모달 LLM에서의 기존 관행과 일치합니다.

OCTAV 데이터셋은 비디오 내 이벤트 전환을 반영하는 질문-답변 쌍으로 구성되어 있으며, OMCAT은 오디오와 시각 데이터를 하나의 모델로 통합하여 시간 정보 내장을 통해 두 모달리티를 효과적으로 정렬합니다.

종합 실험과 절삭 연구를 통해 OMCAT은 오디오-비주얼 질문 응답, 시간적 추론 작업, 새로운 OCTAV 벤치마크에서 성능을 크게 향상시켰음을 보여주었습니다.

이 접근법은 멀티모달 AI의 크로스 모달 및 시간적 추론 능력을 발전시키며, 이 분야의 미래 연구 방향을 제시하고 있습니다. OMCAT의 데모는 프로젝트의 GitHub.io에서 확인할 수 있습니다.