Ultralight-Digital-Human数字人整合包(需要训练模型)
准备好你的视频,3到5分钟的就可以,必须保证视频中每一帧都有整张脸露出来的人物,声音清晰没有杂音,把它放到一个新的文件夹里面。视频说话的质量决定训练后模型的质量,决定着数字人的质量, 视频质量一定要选择好的
使用建议: 自己或者公司员工录制3到5分钟口播绿幕视频,然后训练模型, 生成对口型视频, 再视频换背景, 使用rope视频换脸(嘴部区域不替换),基本可以达到商用数字人效果,不露脸也能做自媒体口播
此项目训练批次默认为200, 可以修改成600, 效果也许更好, 基本可以达到商用效果
对口型的音频文件采用 .wav 格式,采样率为 16kHz,单通道为 16 位。码率(比特率)推荐为256K,音频清晰无杂音
视频效果演示 :https://pan.baidu.com/s/1Zy-mgqFwcjY4NVncZRIwYQ?pwd=j6qt
--来自百度网盘超级会员v5的分享
操作步骤请看: https://github.com/anliyuan/Ultralight-Digital-Human
整合包里边的bat 文件, 请根据操作修改 视频.音频,模型路径, 训练模型操作比较复杂
不适合新手, 需要训练模型, 每一步的bat 文件已经创建, 但是根据要求需要修改bat文件里边的音频,视频,模型路径, 可加QQ群交流
首先我们需要提取音频特征,我用了两个不同的特征提取起,分别是wenet和hubert,感谢他们。
如果你选择使用wenet的话,你必须保证你视频的帧率是20fps,如果选择hubert,视频帧率必须是25fps
实验中,hubert的效果更好,但是wenet速度更快,整合包使用的是hubert
需要显卡:英伟达8G
系统要求: win10win11
整合包下载地址:
链接: https://pan.baidu.com/s/1ObAfIIJOHCH0YPGPw4wOqA?pwd=3e8w
一搜论坛果然有,万分感谢大佬分享:P 报到拿灵石 哇,楼主厉害,膜拜,下一个 这个操作有点复杂,那种打开就可以直接用的才是大众的。
页:
[1]