Meta와 옥스퍼드대학교 과학자들이 공동으로 발표한 새로운 연구 논문에서, 2D 이미지에서 고품질 3D 모델을 단 몇 초 만에 생성할 수 있는 AI 기반 기술 'VFusion3D'를 소개했습니다. 이 혁신은 AI 훈련 및 콘텐츠 생성을 위한 3D 데이터 부족 문제를 해결하기 위해, 기존 3D 모델 대신 텍스트, 이미지, 동영상을 활용합니다.
VFusion3D는 단일 이미지에서 3D 자산을 생성할 수 있으며, 인상적인 정밀도와 품질을 보여줍니다. Junlin Han, Filippos Kokkinos, Philip Torr 팀은 최소량의 3D 데이터로 동영상 확산 모델을 미세 조정하는 파이프라인을 개발했습니다. 동영상은 정확한 3D 재현을 위해 필수적인 객체의 다양한 각도를 제공하는 훌륭한 자원입니다.
팀은 펜 촬영 장면과 드론 영상 등 다양한 동영상 유형으로 학습된 'EMU Video' 모델을 활용했습니다. VFusion3D의 단일 이미지 고품질 3D 자산 생성 능력은 사용자 연구를 통해 검증되었으며, 관찰 각도와 무관하게 효과적인 것으로 나타났습니다.
다른 증류 기반 및 피드포워드 3D 생성 모델과 비교 테스트에서 VFusion3D가 우수한 품질과 성능을 보였습니다. Junlin Han은 GitHub 프로젝트 페이지에서 VFusion3D와 경쟁 모델이 생성한 애니메이션 객체를 비교하여 이러한 이점을 강조했습니다.
VFusion3D 온라인 데모를 통해 사용자는 예시 이미지나 직접 업로드한 이미지에서 3D 모델을 생성하고 다운로드할 수 있습니다. 다만 현재 높은 트래픽으로 데모가 원활하게 작동하지 않는 상황입니다.
* 이 글은
tomshardware.com의 기사를 요약한 것입니다. 전체 기사의 내용은
이곳에서 확인하실 수 있습니다.