Ultralight-Digital-Human数字人整合包（需要训练模型）

meiyouruguo 发表于 2024-12-3 12:08:54

准备好你的视频，3到5分钟的就可以，必须保证视频中每一帧都有整张脸露出来的人物，声音清晰没有杂音，把它放到一个新的文件夹里面。
视频说话的质量决定训练后模型的质量,决定着数字人的质量, 视频质量一定要选择好的
使用建议: 自己或者公司员工录制3到5分钟口播绿幕视频,然后训练模型, 生成对口型视频, 再视频换背景, 使用rope视频换脸(嘴部区域不替换),基本可以达到商用数字人效果,不露脸也能做自媒体口播
此项目训练批次默认为200, 可以修改成600, 效果也许更好, 基本可以达到商用效果
对口型的音频文件采用 .wav 格式，采样率为 16kHz，单通道为 16 位。码率(比特率)推荐为256K，音频清晰无杂音
视频效果演示 :https://pan.baidu.com/s/1Zy-mgqFwcjY4NVncZRIwYQ?pwd=j6qt
--来自百度网盘超级会员v5的分享
操作步骤请看: https://github.com/anliyuan/Ultralight-Digital-Human

整合包里边的bat 文件, 请根据操作修改视频.音频,模型路径, 训练模型操作比较复杂
不适合新手, 需要训练模型, 每一步的bat 文件已经创建, 但是根据要求需要修改bat文件里边的音频,视频,模型路径, 可加QQ群交流

首先我们需要提取音频特征，我用了两个不同的特征提取起，分别是wenet和hubert，感谢他们。
如果你选择使用wenet的话，你必须保证你视频的帧率是20fps，如果选择hubert，视频帧率必须是25fps
实验中，hubert的效果更好，但是wenet速度更快，整合包使用的是hubert
需要显卡:英伟达8G
系统要求: win10win11

整合包下载地址:
链接: https://pan.baidu.com/s/1ObAfIIJOHCH0YPGPw4wOqA?pwd=3e8w

snk008 发表于 2024-12-3 22:26:48

一搜论坛果然有，万分感谢大佬分享:P

q7756654 发表于 2025-1-13 05:46:55

哇，楼主厉害，膜拜，下一个

caols 发表于 2025-1-14 23:30:00

这个操作有点复杂，那种打开就可以直接用的才是大众的。

页: [1]

AIBL论坛's Archiver

Ultralight-Digital-Human数字人整合包（需要训练模型）