오픈소스 TTS 스위트 Zonos의 등장
Zyphra가 오픈소스 TTS 모델 모음집인 Zonos-v0.1의 베타 버전을 발표했습니다. 이 스위트는 고품질 음성 복제 및 실시간 기능을 갖춘 텍스트-음성 변환 모델로 구성되어 있으며, 연구자와 개발자가 Apache 2.0 라이선스 아래에서 자유롭게 사용할 수 있습니다.
- 오픈소스 소프트웨어의 시장 점유율은 지속적으로 증가하며, 이는 개발자들의 자유로운 접근과 커스터마이징을 가능하게 하는 이유에 기인합니다. Red Hat의 조사에 따르면, 2022년 오픈소스 소프트웨어의 사용은 기업의 77%에서 증가했습니다.
- Apache 2.0 라이선스는 상업적 사용, 배포, 수정 및 재배포를 용이하게 하며 법적 보호를 제공합니다. 이는 연구자와 기업이 Zonos를 쉽게 적용할 수 있는 환경을 만들어 줍니다.
1.6억 파라미터 모델과 하이브리드 기술
Zonos는 두 가지 1.6억 파라미터 모델을 제공합니다. 하나는 트랜스포머 기반 모델이며, 다른 하나는 SSM을 활용한 하이브리드 모델입니다. 두 모델 모두 Huggingface와 GitHub에서 접근 가능합니다.
- 트랜스포머는 NLP 분야에서 혁신을 이끌었던 주요 기술로, 병렬 처리에 능하며 뛰어난 성능을 보여주는 것이 특징입니다. OpenAI의 GPT 시리즈와 마찬가지로, 대규모 파라미터가 고품질의 결과를 보장합니다.
- SSM을 활용한 하이브리드 모델은 구조적 강화 전략을 통해 낮은 대기시간을 유지하면서도 정확도 높은 음성 생성을 가능하게 합니다. 이는 실시간 요구사항에 특히 유리합니다.
광범위한 음성 데이터셋
약 20만 시간의 방대한 음성 데이터셋으로 훈련된 Zonos 모델은 영어를 중심으로 중국어, 일본어, 프랑스어, 스페인어, 독일어 등의 언어를 포함합니다. 그러나 상대적으로 적게 대표되는 언어에서는 성능이 제한적입니다.
- Common Voice 프로젝트와 같은 대규모 음성 데이터셋은 다양한 언어와 방언을 수집하여 AI의 학습을 지원합니다. 현재 해당 플랫폼은 60여 개 언어를 제공하며, 꾸준히 데이터가 추가되고 있습니다.
- 언어 다양성은 TTS 시스템의 품질에 직접적으로 영향을 미칩니다. 시장조사기관 보고서에 따르면, 다국어 지원 기능이 있는 TTS 시스템은 단일 언어 지원 시스템에 비해 세 배 더 많은 소비자에게 매력적으로 인식됩니다.
고품질 음성 복제 및 실시간 기능
Zonos는 5-30초의 짧은 오디오 샘플로 고품질 음성 복제가 가능하며, 감정, 발화 속도, 피치, 오디오 품질 등을 조절할 수 있습니다. 하이브리드 모델은 Mamba2 아키텍처 덕분에 낮은 대기시간과 메모리 사용량을 자랑합니다.
- 딥러닝 기반의 개인화된 음성 복제 기술은 전화 고객 서비스, 내비게이션 시스템, AI 보조기 등에 널리 사용됩니다. CNBC의 보고서에 따르면 기업의 55%가 상호작용의 인간성을 높이기 위해 TTS를 사용하고 있습니다.
- Zonos의 실시간 처리 능력은 특히 응급 상황 관리를 위한 실시간 데이터 프로세싱이나 개인 비서 AI에서 주요한 경쟁력을 확보할 수 있는 기능으로 여겨집니다.
한계점과 향후 개선 방안
Zonos는 때때로 오디오 아티팩트 및 텍스트 정렬 문제를 겪습니다. 고비트레이트 오토인코더를 사용하여 높은 품질을 보장하지만, 계산 비용이 증가합니다. Zyphra는 향후 업데이트를 통해 언어 지원과 발음 정확성을 개선하고자 합니다.
- AI 모델들은 데이터의 한계로 인해 종종 특정 언어 또는 발음에서 오류를 보입니다. 언어학 연구에 따르면, 비주류 언어는 일반적으로 주요 언어보다 두 배 이상 높은 오류율을 가집니다.
- 고품질의 오디오 아티팩트를 줄이기 위한 연구는 계속해서 진행 중이며, 이는 TTS 분야에서 음성의 자연스러움을 증가시키고 사용자 경험의 질을 높이는 핵심 요소로 작용합니다.
오픈소스 TTS 솔루션의 경쟁력
Zyphra는 Zonos를 ElevenLabs 같은 독점 TTS 솔루션과 경쟁하는 오픈소스 연구의 진보로 자리매김하고 있습니다. 이는 연구자와 개발자에게 더 나은 음성 생성 옵션을 제공합니다.
- TTS 시장에서 오픈소스 솔루션은 유연한 사용자 커스터마이징과 비용 절감으로 비즈니스 환경에 유리합니다. 2023년까지 전 세계 TTS 시장은 70억 달러에 이를 것으로 예상됩니다.
- 연구자와 개발자에게 오픈소스의 접근성은 기술 혁신을 추진하는 강력한 원동력으로 작용하며, TTS 음성 모델의 테스트, 개선 및 구축에 있어 중요한 기회를 제공합니다.
출처 : 원문 보러가기