meiyouruguo 发表于 2024-4-12 09:28:46

数字人MuseTalk独立版整合包,高质量视频对口型工具,支持批量替换

AI数字人工具MuseTalk,高质量视频对口型工具解压即用整合包(已更新到最新版本)

整合包视频效果演示:https://www.bilibili.com/video/BV1hm421j7MJ/
批量替换教程: https://www.bilibili.com/video/BV14Z421p7Cn/


电脑要求:英伟达8G显卡以上,建议12G
使用的时候先用3秒视频和音频测试bbox_shift数值,找到合适的bbox_shift值后再替换长点的时候
如果生成后感觉效果不好,如嘴巴闭不严实,可以修改bbox_shift数值为负数,如bbox_shift范围为 [-19, 19],我们可以修改bbox_shift数值设置为-19测试效果

面罩的上限对嘴巴张开有重要影响。为了控制掩模区域,建议使用bbox_shift参数。正值(向下半部分移动)会增加嘴巴张开度,而负值(向上半部分移动)会降低嘴巴张开度。
您可以先使用默认配置运行以获取可调整值范围,然后在此范围内重新运行脚本。
例如,在 的情况下,运行默认配置后,它显示可调整值 rage 为 [-9, 9]。然后,为了减少嘴巴张开,我们将bbox_shift 值设置为 -7 (负7)

为什么有“bbox_shift”参数?
在处理训练数据时,我们利用人脸检测结果(bbox)和人脸标志的组合来确定头部分割框的区域。具体来说,我们使用 bbox 的上限作为分割框的上边界,使用面部标志坐标的最大 y 值作为分割框的下边界,使用地标坐标的最小和最大 x 值作为分割框的左右边界。通过以这种方式处理数据集,我们可以确保人脸的完整性。
然而,我们观察到,由于不同的人脸型不同,脸部的遮罩比例在不同的图像中会有所不同。此外,我们发现掩模的上限主要位于地标28、地标29和地标30地标点附近(如图1所示),分别对应数据集中比例为15%、63%和22%。


在推理过程中,我们发现,随着面具的上限越来越靠近嘴巴(靠近 landmark30),音频特征对嘴唇运动的贡献更大。相反,当面具的上限远离嘴巴(靠近地标28)时,音频特征对生成面部外观细节的贡献更大。因此,我们将此特性定义为一个参数,可以调整音频特征对生成嘴唇运动的贡献,用户可以在实际场景中根据自己的特定需求进行修改。

最新版本支持批量替换
视频对口型工具MuseTalk下载地址(老版本需要英伟达12G显存):

下载链接:https://pan.baidu.com/s/1jeI5BuLRCi2PVkRsnb9DtA?pwd=xted
解压密码:www.aibl.vip

视频对口型工具MuseTalk整合包最新优化版下载地址(已更新到20241026最新版本,购买后会一直更新,支持8G显存,支持批量替换):
***本内容需购买可见***



木之本樱 发表于 2024-4-14 15:02:58

感谢分享

q366690712 发表于 2024-4-14 22:26:05

感谢分享,

zuozeye 发表于 2024-4-17 10:03:37

看视频,我觉得这是现在口型对的最好的了。

roach2024 发表于 2024-4-20 16:10:23

有点意思,谢谢

ai5566 发表于 2024-4-21 01:16:41

怎么下载不了啊

yexleo 发表于 2024-4-24 15:19:36

感谢分享!另外,最新版修改了什么啊?

lanway 发表于 2024-4-24 15:35:45

为啥我生成的视频那口唇不停地颤抖,这个能有办法解决吗根本就不能用如果是这个质量

ksgnaw 发表于 2024-4-24 20:53:55

感谢分享

dog888 发表于 2024-4-25 09:52:19

嘴大小怎么调节呀
页: [1] 2 3 4 5 6 7 8
查看完整版本: 数字人MuseTalk独立版整合包,高质量视频对口型工具,支持批量替换