EMO 项目：根据人的照片生成视频

我们开始惊讶地看到人工智能能够做的一些事情应用于我们的日常设备。结果确实令人惊讶，而这只是冰山一角。一个很好的例子是 欧洲管理组织项目，其中包括从照片和肖像生成富有表现力的视频。

换句话说：它是一种赋予静态照片生命、声音和动感的技术。在这篇文章中，我们将通过一些有趣的例子来解释这个想法的组成部分。

什么是 EMO 项目？

EMO 是缩写 生动的表情肖像，由田林瑞、王奇、张邦和薄烈峰三位工程师开发的项目 智能计算研究所，是中国科技和商业集团阿里巴巴的一部分。

用其创建者的话来说，它是一个用于音频驱动的视频肖像的富有表现力的生成系统。这是对 Project EMO 功能的非常粗略的定义： 拍摄一个人的形象并赋予其表情、声音和动作。 这看起来就像魔法一样。

这些不是任何应用程序都可以做到的简单动画技巧，而是 细致、高精度的工作 这反映在各种面部表情以及头部和嘴唇的动作中。除此之外还有音频，它也决定了这些动作所采取的形式。

另一方面，生成的视频可以具有无限的持续时间。它们实际上取决于它们所基于的视频的长度。

页面本身详细解释了这个令人难以置信的工具的操作。项目网站。该方法分为两个不同的阶段：

1. 初始编码阶段 其中研究起始（或参考）图像的所有方面，以更好地理解可以对其应用哪些运动和动画。
2. 处理阶段。其中，预先训练的音频编码器处理音频嵌入，同时应用面部图像生成层或掩模。

应强调此过程的一些细节，重点是消除噪音和保留角色的身份。另一方面，其他时间模块用于调整视频的持续时间和移动速度。

我们下面要呈现的结果（无论是让每幅肖像说话还是唱歌）只能被定义为壮观。 AI干预旨在实现 高水平的现实主义能够完全欺骗我们。这仍然令人不安，真的。

让我们展示一些例子 这项技术可以实现什么。 正如您将看到的，我们可以使用真实角色的图像或人工智能生成的图像。我们可以让它移动、做手势、用我们想要的语言说话（说出我们想让它说的话），甚至让它唱歌。真正的神童。

这些是 EMO 项目谈论的一些照片视频。女演员 奥黛丽·赫本 活生生地告诉我们人们有哭泣和表达感情的权利：

你也可以让非血肉的角色说话。在这里我们有 列奥纳多·达·芬奇的《蒙娜丽莎》，EMO Project赋予她生命，让她在剧中背诵罗莎琳达的独白 “随你便” 威廉·莎士比亚：

奇怪的是，我们还可以拍摄真实演员的照片，让他们说出任何话。在这种情况下，我们看到 拉斐尔·菲尼克斯 在他的著名角色中小丑，但是发音对应于另一部电影的文本， 黑暗骑士.

现在让我们进入音乐世界。在以下示例中，AI 生成的角色名为 SORA 表演这首歌 《现在不开始》 de Dua Lipa。结果是令人惊讶的人类：

最后我们呈现一个非常年轻的 莱昂纳多·迪卡普里奥 唱出电影主题曲 哥斯拉 由说唱歌手创作 阿姆：

人工智能的使用（或者更确切地说，滥用）是目前争论的中心。 这是一种颠覆性技术，我们还无法看到其局限性和可能性， 如果滥用，可能会在许多不同方面产生负面后果。

为了掩饰自己的不足，他们在EMO项目页面上明确表示，他们的所有测试和创作仅用于学术研究和效果展示。没有必要寻找别有用心。然而，能够达到如此精确度和真实性的技术对于任何希望使用它进行欺诈、身份盗窃和其他犯罪的人来说都是真正的危险。