바이오어쿠스틱스와 다중 모달 언어 모델 연구

인공지능을 활용한 자동 음향 이벤트 탐지의 증가

바이오어쿠스틱스, 생태음향학, 사운드스케이프 생태학에서 AI를 통한 자동 음향 이벤트 탐지의 중요성이 커지고 있습니다. 이는 특히 야생 동물 모니터링 및 보존에 유용합니다.

전 세계적으로 약 1,900종의 동물들이 멸종 위기에 처해있으며, AI 기술은 이러한 위기 종의 서식지를 감시하고 데이터를 자동으로 수집하는 데 큰 도움이 됩니다.
빅데이터 분석을 통해 AI 시스템은 수백 시간의 오디오 데이터를 처리하여 특정 동물의 소리를 정확하게 식별함으로써 보존 노력을 지원하고 있습니다.

전통적 방법의 한계

전통적인 감독 학습 기법은 상당한 양의 수동 주석 데이터를 필요로 하며, 이는 많은 인력과 재정 자원을 소모합니다. 또한, 이러한 접근법은 사전에 정의된 범주에만 적용될 수 있는 제한이 있습니다.

수동 주석 프로세스는 데이터 주석 작업자가 평균적으로 1시간 동안 10분 분량의 오디오 데이터를 주석 처리하는 것으로 나타났습니다.
이러한 접근이 한계를 가지는 또 다른 이유는 주석 작업자의 전문 지식 수준에 따라 데이터의 정확성이 달라지며, 이는 상당히 높은 비용을 초래할 수 있습니다.

다중 모달 언어 모델의 혁신

최근 다중 모달 언어 모델의 발전은 AI 응용 분야의 유연성과 가능성을 크게 확장했습니다. 이 모델은 언어와 다른 데이터 모달리티, 특히 이미지와 오디오를 정렬하여 새로운 솔루션을 제시합니다.

OpenAI의 CLIP 모델은 이미지와 텍스트를 결합해 높은 정확성의 이미지 검색을 구현했으며, 유사한 다중 모달 접근이 음향 분야에도 적용되고 있습니다.
구글의 MuZero 모델은 다중 모달 데이터를 통해 강화 학습의 범위를 넓혀, 다양한 데이터를 기반으로 한 예측의 정확도를 향상시키고 있습니다.

CLAP 모델을 통한 사례 연구

우리는 CLAP(대조적 언어-오디오 사전 학습)이라는 오디오-언어 모델을 다양한 바이오어쿠스틱스 벤치마크에 적용하여 모델의 잠재력과 한계를 탐구했습니다. 이 모델은 추가적인 훈련 없이도 그룹 수준의 카테고리를 효과적으로 인식합니다.

CLAP 모델은 북미지역의 50개 이상의 동물 소리에 대해 검증되었으며, 기존 모델보다 평균 15% 이상의 인식 정확도를 달성했습니다.
이 모델은 “새”나 “포유류”와 같은 광범위한 카테고리를 더 세부적으로 인식하여, 보존 과학자들이 보다 정확한 데이터를 얻도록 지원합니다.

생물 다양성 손실의 시대

전 세계적으로 서식지 파괴와 기후 변화로 인한 생물 다양성 손실이 가속화되고 있습니다. 생태학자들은 자동화된 데이터 수집과 모니터링 방법을 점점 더 많이 사용하고 있습니다.

매년 약 1만 종의 동물이 멸종 위기에 처해 있으며, 이는 주로 서식지 손실과 환경 오염에 기인합니다.
세계자연기금(WWF)에 따르면, 1970년 이후 척추동물 개체수는 평균 68% 감소했으며, AI 기반 모니터링은 이러한 감소 추세를 분석하고 대응책을 마련하는 데 중요한 역할을 합니다.

자동화된 소리 녹음기의 활용

자동화된 소리 녹음기(ASR)와 자율 녹음 장치(ARU)는 이미지 기반 장치로 쉽게 모니터링할 수 없는 동물을 조사하는 데 사용됩니다. 이는 수백만 개의 오디오 데이터를 수집하고 분석하는 데 필수적입니다.

ASR과 ARU는 여름철 번식기에만 나타나는 조류의 노래를 지속적으로 녹음하고 분석하여 종 분포 변화를 추적할 수 있습니다.
캐나다의 한 연구에서는 연중 비정기적으로 나타나는 200종 이상의 조류 소리를 정확히 탐지하기 위해, AI와 결합된 ARU를 효과적으로 활용한 사례가 있습니다.

AI 기술의 역할

현대 AI 기술은 바이오어쿠스틱 이벤트의 자동 감지 및 위치 지정에 점점 더 많이 활용되고 있습니다. 이러한 기술은 오디오 녹음에서 관심 있는 소리 이벤트를 식별하고 시작 및 종료 시간을 제공합니다.

최근 연구에 따르면 AI 기반 소리 감지 시스템은 최대 92%의 정확도로 조류 및 야생동물 소리를 구별할 수 있습니다.
GPS 기술과 결합된 AI 분석은 특정 지역의 생태 커뮤니티 변화를 연중무휴로 모니터링하는 데 사용할 수 있습니다.

다중 모달 언어 모델의 등장

다중 모달 언어 모델의 등장은 AI 응용 분야에서 새로운 패러다임 전환을 불러왔습니다. 이 모델은 언어 개념과 다른 데이터 모달리티를 정렬하여 기존의 한계를 극복하는 혁신적인 솔루션을 제공합니다.

텐서플로우(TensorFlow) 및 파이토치(PyTorch)와 같은 라이브러리는 이러한 다중 모달 구현을 지원하며, 각종 첨단 AI 연구와 개발에 광범위하게 활용되고 있습니다.
이러한 모델은 비정형 데이터를 사용하여 자연어 처리(NLP), 이미지 인식 및 음성 감지와 같은 다양한 영역에서 혁신을 이끌고 있습니다.

제로 샷 인식의 가능성

다중 모달 언어 모델의 가장 주목할 만한 발전 중 하나는 제로 샷 인식 능력입니다. 이 기술은 유사한 데이터를 훈련 중 보지 않아도 카테고리를 인식할 수 있게 합니다.

OpenAI의 GPT-3는 570GB의 데이터에서 학습했으며, 제로 샷 방식으로 175억 개의 파라미터를 활용하여 기존의 텍스트 기반 모델을 뛰어넘는 성과를 보였습니다.
이러한 모델은 초기에 멸종위기종 데이터셋이 없더라도, 기존에 알려진 유사 데이터를 통해 새로운 환경에서 유연하게 적용될 수 있습니다.

실험 결과 및 논의

CLAP 모델은 기존의 감독 학습 기반 모델과 비교할 때 여러 바이오어쿠스틱스 벤치마크에서 유사한 성능을 보였습니다. 이는 모델의 잠재력을 입증하며, 향후 연구 방향을 제시합니다.

CLAP 모델을 활용한 초기 실험에서는 새소리 95% 정확도로 인식했으며, 기존의 모델 대비 데이터 처리 시간을 30% 줄였습니다.
이뿐만 아니라, 다양한 환경과 조건에서의 결과 변동성을 줄이며, 모델의 안정성을 높이는 초기 연구 성과가 달성되었습니다.

텍스트 프롬프트의 중요성

텍스트 프롬프트의 품질이 모델의 제로 샷 인식 성능에 직접적인 영향을 미칩니다. 더 나은 성능을 위해서는 고품질의 프롬프트가 필요합니다.

연구에 따르면, 구체적인 텍스트 프롬프트를 제공했을 때 모델의 정확도는 평균 20% 향상될 수 있었습니다.
자연어로 구성된 프롬프트가 인식 데이터와의 정렬을 최적화하여, 예측 성능을 크게 향상시킴이 입증되었습니다.

향후 연구 방향

미래 연구는 자동으로 고품질 텍스트 프롬프트를 생성할 수 있는 모델을 개발하는 데 초점을 맞춰야 합니다. 이는 비영어권 커뮤니티에서도 사용할 수 있도록 모델의 활용 범위를 확장할 것입니다.

전체 세계 인구의 75%가 영어를 사용하지 않기 때문에, 다중 언어 지원 및 현지화된 프롬프트 생성은 특히 중요합니다.
향후 연구는 다국어 및 다문화 데이터셋 제작과 개인화된 AI 경험을 위한 기술 개발에 중점을 둘 필요가 있습니다.

출처 : 원문 보러가기