VASA-1은 Microsoft의 새로운 인공 지능 모델입니다. 정적 이미지와 음성 클립이라는 두 가지 간단한 요소로 사실적인 아바타를 만들 수 있는 놀라운 기술입니다. 더 자세히 알고 싶으시다면 VASA-1과 AI가 생성한 초현실적인 아바타, 계속 읽으 실 것을 권장합니다.
레드몬드는 어시스턴트에서 이런 종류의 기술 개발에 모든 노력을 집중할 것 같았습니다. 부조종사. 언어 모델을 Microsoft 365 애플리케이션과 결합하는 도구이지만 그 계획은 더 야심 찬 것 같습니다. 이에 대한 증거는 VASA-1에서 찾을 수 있습니다.
VASA-1이란 무엇입니까?
VASA는 다음의 약어입니다. 시각적 감성 기술 앱, 다음과 같이 번역될 수 있는 개념이다. 시각 정서적 기술의 적용. 숫자 "1"은 이것이 미래에 우리를 더욱 놀라게 할 긴 버전 목록 중 첫 번째에 불과하다는 것을 분명히 나타냅니다.
VASA-1이 왜 그렇게 특별한가요? 귀사의 주요 혁신은 무엇입니까? GIF와 유사한 움직임으로 사진에 생기를 불어넣을 수 있는 애플리케이션이 이미 많이 있습니다. Microsoft Research Asia의 AI 연구원 팀이 만든 이 도구는 훨씬 더 정교한 것, 즉 사진을 노래하고 춤추게 할 수 있는 인공 지능 시스템을 소개합니다. 애니메이션에 관한 것이 아니라 다른 것입니다.
결과는 놀랍도록 현실적입니다. 초현실적 가장 적절한 용어일 것이다. 이 모델은 오디오와 완벽하게 동기화된 입술 움직임을 생성할 수 있을 뿐만 아니라 다양한 얼굴 뉘앙스와 자연스러운 머리 움직임을 포착할 수 있습니다. 전체적으로, 다른 유사한 도구에서는 볼 수 없었던 생생하고 진정성 있는 이미지를 제공합니다.
이 외에도 이 도구를 사용하면 무시할 수 있는 초기 대기 시간으로 초당 최대 512프레임(오프라인 모드에서 사용하는 경우 약간 적음)으로 512x45 비디오를 온라인으로 생성할 수 있습니다. 이는 심지어 도달할 수 있는 현실적인 아바타와의 실시간 상호 작용을 위한 길을 열어줍니다. 인간의 대화 행동을 모방합니다.
VASA-1: 몇 가지 예
이 방법은 넓은 스펙트럼의 이미지와 오디오 파일을 처리하는 능력을 보여줍니다. 따라서 영어뿐만 아니라 다양한 언어의 예술적인 사진과 오디오까지 포함될 수 있습니다. 이 게시물에는 다음이 포함되었습니다. 정말 할 말을 잃게 만드는 몇 가지 예. 영상에서 말하고 몸짓으로 등장하는 얼굴은 실제 사람의 얼굴과 일치하지 않으며 이미지와 오디오로 만들어진 아바타라고 말하기는 어렵습니다.
중전력 컴퓨터(예: Nvidia RTX 4090 GPU)를 사용하는 모든 사용자는 이 도구를 사용하여 단 몇 분 만에 이 사실적인 수준의 비디오를 생성할 수 있습니다.
이러한 애니메이션이 어떻게 이미지와 오디오를 효과적으로 결합하여 우리 앞에 있는 화자에게 비범한 수준의 사실성을 제공하는지 보는 것은 인상적입니다. 하지만, 전문가들은 이러한 이미지의 가짜성을 드러내는 오류가 여전히 존재한다고 지적한다. 우리 대부분이 감지할 수 없는 세부 사항이지만 가장 잘 훈련된 관찰자라면 이를 피할 수 없습니다. AI 개입을 드러내는 미묘한 결함과 징후가 있습니다.
너무 정밀한 도구의 위험성
이 도구는 너무 훌륭하고 현실적이어서 Microsoft는 감히 공개 데모를 공개하는 조치도 취하지 않았습니다. 에 대한 우려 신원 도용으로 이어질 수 있는 오용 및 잠재적 위험 매우 신중하게 행동할 것을 권고합니다.
아무튼 공식 홈페이지에서 VASA-1 프로젝트, Microsoft 사이트에서 호스팅되는 1분 남짓 길이의 흥미로운 비디오에서 초현실적인 아바타를 만드는 과정을 볼 수 있습니다.
기본적으로 이 방법은 이미지(사람의 얼굴)를 선택한 다음 오디오 파일을 선택하는 것으로 구성됩니다. 그런 다음 AI는 그들과 "결혼"합니다. 생성 과정에서 사용자는 인터페이스에 나타나는 버튼과 막대를 통해 다양한 미묘한 차이를 설명할 수 있습니다. 약간의 시간과 창의력만 투자하면 영향력 있는 결과를 얻을 수 있습니다.
현재 VASA-1 개발자의 의도는 가짜 및 피싱 동영상을 생성하는 것과 정반대입니다(또는 적어도 그들이 말하는 바는 그렇습니다). 즉 말하자면, 비디오 감지 및 퇴치에 도움 깊은 거짓. 점점 더 강력하고 정밀해지는 AI 도구를 통해 인간의 마음을 속이는 방법을 그들보다 더 잘 아는 사람이 없기 때문에 그것이 사실일 수도 있습니다.
그럼에도 불구하고 VASA-1 개발자들은 강조할 점을 강조합니다. 가장 긍정적인 측면 의사소통에 어려움이 있는 사람들의 접근성을 개선하고, 필요한 사람들에게 회사 또는 치료 지원을 제공하며, AI의 책임감 있는 사용에서 파생되는 기타 이점을 제공합니다. 과제는 이것을 가능하게 만드는 것입니다.