数字人MuseTalk 1.0版整合包，高质量视频对口型工具,支持批量替换

meiyouruguo 发表于 2024-4-12 09:28:46

AI数字人工具MuseTalk，高质量视频对口型工具解压即用整合包

整合包视频效果演示：https://www.bilibili.com/video/BV1hm421j7MJ/
批量替换教程: https://www.bilibili.com/video/BV14Z421p7Cn/

电脑要求：英伟达8G显卡以上，建议12G
使用的时候先用3秒视频和音频测试bbox_shift数值，找到合适的bbox_shift值后再替换长点的时候
如果生成后感觉效果不好，如嘴巴闭不严实，可以修改bbox_shift数值为负数，如bbox_shift范围为 [-19， 19]，我们可以修改bbox_shift数值设置为-19测试效果

面罩的上限对嘴巴张开有重要影响。为了控制掩模区域，建议使用bbox_shift参数。正值（向下半部分移动）会增加嘴巴张开度，而负值（向上半部分移动）会降低嘴巴张开度。
您可以先使用默认配置运行以获取可调整值范围，然后在此范围内重新运行脚本。
例如，在的情况下，运行默认配置后，它显示可调整值 rage 为 [-9， 9]。然后，为了减少嘴巴张开，我们将bbox_shift 值设置为 -7 （负7）

为什么有“bbox_shift”参数？
在处理训练数据时，我们利用人脸检测结果（bbox）和人脸标志的组合来确定头部分割框的区域。具体来说，我们使用 bbox 的上限作为分割框的上边界，使用面部标志坐标的最大 y 值作为分割框的下边界，使用地标坐标的最小和最大 x 值作为分割框的左右边界。通过以这种方式处理数据集，我们可以确保人脸的完整性。
然而，我们观察到，由于不同的人脸型不同，脸部的遮罩比例在不同的图像中会有所不同。此外，我们发现掩模的上限主要位于地标28、地标29和地标30地标点附近（如图1所示），分别对应数据集中比例为15%、63%和22%。

在推理过程中，我们发现，随着面具的上限越来越靠近嘴巴（靠近 landmark30），音频特征对嘴唇运动的贡献更大。相反，当面具的上限远离嘴巴（靠近地标28）时，音频特征对生成面部外观细节的贡献更大。因此，我们将此特性定义为一个参数，可以调整音频特征对生成嘴唇运动的贡献，用户可以在实际场景中根据自己的特定需求进行修改。

最新版本支持批量替换

视频对口型工具MuseTalk整合包下载地址:

MuseTalk下载地址：https://pan.quark.cn/s/c6f08cb57f2c 提取码：Uge8解压密码：www.aibl.vip如果您的电脑是8G显存。打开AIBL.py 文件，搜索 "batch_size":8 把 8 改成 1

木之本樱 发表于 2024-4-14 15:02:58

感谢分享

q366690712 发表于 2024-4-14 22:26:05

感谢分享，

zuozeye 发表于 2024-4-17 10:03:37

看视频，我觉得这是现在口型对的最好的了。

roach2024 发表于 2024-4-20 16:10:23

有点意思，谢谢

ai5566 发表于 2024-4-21 01:16:41

怎么下载不了啊

yexleo 发表于 2024-4-24 15:19:36

感谢分享！另外，最新版修改了什么啊？

lanway 发表于 2024-4-24 15:35:45

为啥我生成的视频那口唇不停地颤抖,这个能有办法解决吗根本就不能用如果是这个质量

ksgnaw 发表于 2024-4-24 20:53:55

感谢分享

dog888 发表于 2024-4-25 09:52:19

嘴大小怎么调节呀

页: [1] 2 3 4 5 6 7 8

AIBL论坛's Archiver

数字人MuseTalk 1.0版整合包，高质量视频对口型工具,支持批量替换