GPT-4 Omni, 실시간 다중 매체 처리 모델 발표

GPT-4 Omni 모델, 실시간 다중 매체 처리 지원

최신 AI 모델인 GPT-4 Omni(이하 GPT-4o)가 공개되었습니다. 이 모델은 텍스트, 오디오, 비디오, 이미지 등 다양한 입력을 실시간으로 처리하여 보다 자연스러운 인간-컴퓨터 상호작용을 가능하게 합니다.

GPT-4o는 오디오 입력에 대해 평균 320밀리초의 반응 속도를 보이며, 이는 사람의 대화 반응 속도와 유사합니다. 특히 비전 및 오디오 이해 능력에서 기존 모델 대비 향상된 성능을 발휘합니다.

GPT-4o는 텍스트, 비전, 오디오를 단일 신경망으로 통합 처리하는 최초의 모델로, 기존의 개별 모델 파이프라인을 뛰어넘어 다양한 입력과 출력을 유연하게 대응합니다.

GPT-4o는 비영어권 언어에서 더욱 향상된 성능을 보이며, 여러 언어에서 토큰 사용량을 대폭 감소시켰습니다. 예를 들어, 한국어는 기존보다 1.7배 적은 토큰으로 처리됩니다.

GPT-4o는 데이터 필터링과 행동 정제를 통해 설계 단계부터 안전성을 고려했습니다. 다양한 도메인의 외부 전문가들과 협력하여 새로운 모달리티가 야기할 수 있는 위험 요소를 평가하고 안전성을 강화했습니다.

현재 GPT-4o는 텍스트와 이미지 입력 및 출력으로 시작되며, 이후 오디오 및 비디오 기능은 점진적으로 제공될 예정입니다. 모델의 성능을 더욱 향상시키기 위해 사용자 피드백을 환영합니다.

GPT-4o는 ChatGPT의 무료 및 플러스 사용자에게 제공되며, API를 통해 텍스트 및 비전 모델로도 활용 가능합니다. 향후 새로운 오디오 및 비디오 기능은 제한된 파트너 그룹과 함께 API에 도입될 계획입니다.