AI 연구, 공정성과 책임에 집중하다

AI 연구에서 공정성의 중요성 강조

Google 리서치는 비디오 생성 모델의 공정성을 평가하기 위해 다양한 실험을 진행했습니다. 이 연구에서는 나이, 성별 표현, 피부 톤과 같은 보호 속성에 대한 모델의 편향을 분석했습니다. 연구 결과에 따르면, 특정 프롬프트가 “젊은 성인”, “남성”, “밝은 피부 톤”에 대한 분포로 이동하는 경향이 있음을 발견했습니다. 하지만 프롬프트의 일부 요소를 변경함으로써 분포를 조정할 수 있었습니다. 이는 비디오 생성에서 공정성을 개선하기 위한 지속적인 연구의 필요성을 강조합니다.

연구는 공정성 평가를 위한 표준을 개발하는 데 기여하고, 다양한 인구를 포괄하는 더 공정한 모델 개발을 촉진합니다.
공정성 문제를 해결하기 위해 새로운 알고리즘과 훈련 데이터셋의 다양성 확보도 중요하게 다루어지고 있습니다.

모델 성능과 크기의 상관관계 분석

비디오 생성 품질을 평가하기 위해 FVD와 FAD 지표를 활용하여 모델 성능을 측정했습니다. 연구 결과, 모델의 크기와 훈련 데이터의 양이 증가할수록 시각 및 오디오 비주얼 작업에서 성능이 향상되었습니다. 특히, 1B 모델과 8B 모델의 비교에서 8B 모델은 일관된 시간적 흐름, 프롬프트 충실도 및 동작 역학에서 더 나은 성능을 보였습니다.

이 연구는 모델 크기와 데이터 확장이 품질 향상에 어떻게 기여하는지를 명확히 보여주어 향후 모델 설계에 중요한 참고 자료가 됩니다.
더 큰 모델이 자원을 많이 요구하지만, 최종 유저에게 더 풍부한 경험을 제공할 수 있는 가능성을 제시하고 있습니다.

비디오 스타일화 기술의 발전

비디오 스타일화를 위한 접근법으로 텍스트, 광학 흐름, 깊이 신호를 결합한 방식을 사용했습니다. 이 방식은 비디오의 구조와 내용을 조절하여 새로운 스타일을 생성할 수 있도록 합니다. 특히, 스타일링 결과가 텍스트와 얼마나 일치하는지를 CLIP-임베딩 일관성을 통해 평가하였으며, 그 결과 VideoPoet이 기존 모델보다 우수한 성능을 보였습니다.

이 기술은 비디오 콘텐츠 제작의 창의성을 극대화하며, 예술가나 콘텐츠 제작자에게 다양한 스타일화 옵션을 제공합니다.
CLIP과 같은 강력한 일관성 평가 모델을 활용하여 스타일링의 정확도와 실용성을 더욱 강화할 수 있습니다.

초해상도 구현의 세부 사항

1B 모델과 500M 모델을 사용하여 초해상도 구현을 진행했습니다. 두 단계로 나누어 공간적 초해상도를 개선하며, 각각의 단계에서 텍스트와 낮은 해상도 조건을 반영하여 더 높은 해상도의 영상을 생성합니다. 이 과정에서 MASKED 모델링 목표를 사용하여 고품질의 텍스트-비디오 쌍 데이터셋을 훈련에 활용했습니다.

영상의 해상도를 높이는 것은 다양한 산업 분야에서 고화질 콘텐츠 수요를 충족시키는 주요 기술로 자리 잡고 있습니다.
모델링 기법의 진전으로 비용 효율적이고 실시간 처리 가능한 초고화질 비디오 생성이 가능해졌습니다.

제로샷 텍스트-비디오 평가

제로샷 텍스트-비디오 설정에서 다양한 평가 지표를 사용하여 모델의 성능을 측정했습니다. MSR-VTT와 UCF-101 데이터셋을 통해 CLIP 점수와 FVD 지표를 평가하며, 16 프레임의 해상도로 비디오를 생성한 후 비쿠빅 업샘플링을 통해 평가를 진행했습니다. 연구 결과, 제로샷 설정에서도 모델이 우수한 텍스트 일치도와 비디오 품질을 보여주었습니다.