数字人项目 ER-NeRF 的使用和部署详细教程
1. ER-NeRF简介
ER-NeRF(官方链接)是一个Talking Portrait Synthesis(对嘴型)项目。即:给一段某人说话的视频,再给定一段音频,经过该模型后处理后,可将原视频的嘴型与音频保持一致。
该模型的有优点:
- 可以做到实时响应。即模型比较小,处理速度快。
缺点:
- 需要对“要对嘴型的视频”进行训练。也就是每段视频对应一个模型
- 生成出的头部不够稳定。
2. ER-NeRF部署
ER-NeRF的环境要求:
- Pytroch 1.12
- CUDA 11.x (必须,否则pytorch3d相关的代码会报错)
部署步骤如下:
- 按顺序执行以下命令(一个一个执行)
``` # 这个知识针对pytorch的,本机的cuda不一定非要是11.6,但必须是11.x conda install cudatoolkit=11.6 -c pytorch # 安装pytorch pip install torch==1.12.1+cu116 torchvision==0.13.1+cu116 --index-url https://download.pytorch.org/whl/cu116 # 安装pytorch3d,这一步一定要成功。否则后面处理数据会报错 pip install "git+https://github.com/facebookresearch/pytorch3d.git" # 安装tensorflow pip install tensorflow-gpu==2.8.0 # 安装一些必要的依赖 apt-get update apt install portaudio19-dev apt-get install ffmpeg # 克隆项目 git clone https://github.com/Fictionarry/ER-NeRF.git # 克隆项目,安装项目所需依赖 cd ER-NeRF pip install -r requirements.txt # 重新安装protobuf,使用3.20.3版本 pip uninstall protobuf pip install protobuf==3.20.3 ```
- 下载模型。网盘链接地址,结构如下:
``` -- checkpoints # 将其放在 `~/.cache/torch/hub/checkpoints` 目录下(这部可以不做,源码也会自己下载) -- data_utils # 将其下面的文件放在 `ER-NeRF/data_utils`对应目录下 -- face_parsing -- face_tracking ```
- 初始化3DMM模型相关内容
``` cd data_utils/face_tracking python convert_BFM.py ```
3. 训练自己的数字人
如果就想用现有的模型(只有obama),可以跳转到第4节。
源码中提供了一个训练好的视频(obama)。若想训练自己的数字人模型,需要遵循以下步骤(以源码中提供的obama视频为例):
- 下载视频(要训练的视频片段),将其放在
data
目录下。以data/<ID>/<ID>.mp4
明明。例如:kunkun.mp4
就放在ER-NeRF/data/kunkun/kunkun.mp4
``` wget https://github.com/YudongGuo/AD-NeRF/blob/master/dataset/vids/Obama.mp4?raw=true -O data/obama/obama.mp4 ```
视频要求(必须满足):① 帧率:25FPS;② 每一帧都要是人物说话;③ 分辨率:512x512;④ 时长:1-5分钟;⑤ 人物背景要稳定。 注:可以使用"Leawo Video Converter Ultimate"处理
- 使用
data_utils/process.py
脚本处理视频
``` python data_utils/process.py data// .mp4 ```
这一步耗时较长,且容易出错(前面环境没配好就会导致某步出错,找出相应的环境配置,配好就行)。process.py
包含多个任务,每个任务会生成若干文件,放在data/<ID>/*
下面。可以根据对应的文件是否生成或日志来判断该任务是否正常完成:
- task 1:分离视频。生成
aud.wav
文件。若报错,通常是ffmpeg问题。 - task 2:生成一些音频数据,
aud.npy
文件。若报错,一般是protobuf
版本问题。 - task 3:提取视频中的每帧图像。生成
ori_imgs/XXX.jpg
文件,会有很多jpg文件。 - task 4:分割人像(语义分割)。生成
parsing/XX.png
文件,会有很多png文件。 - task 5:提取背景图像。生成
bc.jpg
文件。是人物的背景图片。 - task 6:分割出身体部分与生成Ground Truth图片。生成
gt_imgs/XXX.jpg
和torso_imgs/XXX.png
(只有躯干没有人脸的图片)。 - task 7:获取人脸各个点位的坐标。生成
ori_imgs/XXX.lms
。 - task 8:获取人脸跟踪数据,这步要训练一个追踪模型,会很慢。生成
track_params.pt
文件。这部报错通常是pytorch3d
的问题,注意cuda版本。 - task 9:生成
transformers_train.json
和transforms_val.json
。
如果某个任务报错,可以配置环境后使用:
python data_utils/process.py data/<ID>/<ID>.mp4 --task <taskId>
来重试。例如(重试任务2):python data_utils/process.py data/obama/obama.mp4 --task 2
-
将生成的
aud.npy
复制一份,改名aud_ds.npy
(源码好像有点问题,所以要这么做)。 -
使用OpenFace生成
<ID>.csv
文件。具体步骤:① 下载OpenFace(Windows版本链接);② 解压文件,打卡里面的OpenFaceOffline.exe;③ Record里只勾选Record AUs
;④ 打开文件,之后就开始运行。⑤ 等待运行结束,会在./processd
文件夹中生成<ID>.csv
文件,将其更名为au.csv
。⑥ 将其放在data/<ID>/
文件夹下。 -
训练模型,依次执行以下代码:
``` # 命令1:训练模型 python main.py data/obama/ --workspace trial_obama/ -O --iters 100000 # 命令2:在命令1完成后,再多训练“25000”次,微调一下lips python main.py data/obama/ --workspace trial_obama/ -O --iters 125000 --finetune_lips --patch_size 32 ```
trial_obama
是工作路径,也就是生成的模型存放路径。运行完后会生成trial_obama
文件夹,文件树如下:
``` -- checkpoints/ # 模型文件 ├── ngp_ep0013.pth # 第13个epoch的文件(会保存最后两个epoch的文件) ├── ngp_ep0014.pth └── ngp.pth # 最终的模型文件 -- log_ngp.txt # 训练过程中的日志文件 -- opt.txt # 训练时传的启动参数 -- result # 训练结果文件 ├── ngp_ep0014_depth.mp4 └── ngp_ep0014.mp4 # 可以下载这个文件看效果 -- run/ngp/events.out.xxxxx # 训练过程中的数据 -- validation ```
上面两个命令运行完后,运行下面:
``` python main.py data/obama/ --workspace trial_obama_torso/ -O --torso --head_ckpt trial_obama/checkpoints/ngp.pth --iters 200000 ```
trial_obama/checkpoints/ngp.pth
为上面生成的最终模型文件
4. 生成数字人视频
当模型生成出来后,就可以用我们自己的语音来生成视频了。需要遵循以下3步骤:
- 上传音频,提取音频数据(生成对应的
npy
文件)
例如:
``` python data_utils/deepspeech_features/extract_ds_features.py --input /root/demo2.wav ```
将demo2.wav更改为你的音频文件。执行结束后,会在同目录生成
demo2.npy
文件
- 执行模型推理,生成对口型后的视频文件。不过生成的视频没有声音。
``` python main.py data/obama/ --workspace trial_obama_torso/ -O --torso --test --test_train --aud /root/demo2.npy ```
最后的
/root/demo2.npy
就是第一步生成的npy文件
- 将音频和视频合并起来。
``` ffmpeg -i /root/ER-NeRF/trial_obama_torso/results/ngp_ep0028.mp4 -i /root/demo2.wav -c:v copy -c:a aac -strict experimental /root/output.mp4 ```
ngp_ep0028.mp4
是第二步生成的视频(日志里可以看到在哪)。
demo2.wav
是上传的音频。
/root/output.mp4
是你想要输出文件的路径
5. 其他数字人模型比较
模型名称 | 推理速度 | 单独训练 | 优点 | 缺点 |
---|---|---|---|---|
video-retalking | 慢 | 无需单独训练 | 1. 部署简单 2.无需训练,可直接对任意视频使用 3.项目成熟,兼容性强 4. 包含视频处理部分,无需自行处理视频 |
1. 推理速度慢,无法做到实时。 2.效果不稳定,有些视频效果很差 |
ER-NeRF | 快 | 需要自主训练模型 | 1. 模型小,推理速度快,可满足实时要求 2. 嘴型效果较好,但头部晃动严重 |
1. 项目不成熟,为论文源码,坑比较多 2. 兼容性较差,对部署环境要求严格 3. 数据处理与训练耗时较长,5分钟的视频大约需要1天 |
Wav2Lip | - | - | 1. 项目成熟 | 1. 项目太老(4年前的) |
常见问题(FAQ)
常见报错
ValueError: Found array with 0 sample(s) (shape=(0, 2)) while a minimum of 1 is required by NearestNeighbors.:
``` Traceback (most recent call last): File "data_utils/process.py", line 417, inextract_background(base_dir, ori_imgs_dir) File "data_utils/process.py", line 112, in extract_background nbrs = NearestNeighbors(n_neighbors=1, algorithm='kd_tree').fit(fg_xys) File "/root/miniconda3/lib/python3.8/site-packages/sklearn/base.py", line 1152, in wrapper return fit_method(estimator, *args, **kwargs) File "/root/miniconda3/lib/python3.8/site-packages/sklearn/neighbors/_unsupervised.py", line 175, in fit return self._fit(X) File "/root/miniconda3/lib/python3.8/site-packages/sklearn/neighbors/_base.py", line 498, in _fit X = self._validate_data(X, accept_sparse="csr", order="C") File "/root/miniconda3/lib/python3.8/site-packages/sklearn/base.py", line 605, in _validate_data out = check_array(X, input_name="X", **check_params) File "/root/miniconda3/lib/python3.8/site-packages/sklearn/utils/validation.py", line 967, in check_array raise ValueError( ValueError: Found array with 0 sample(s) (shape=(0, 2)) while a minimum of 1 is required by NearestNeighbors. ```
原因:视频中的部分帧没有人脸。一般容易出现在视频开头或结尾。可以通过查看生成的parsing
文件夹的图片进行确认。详见issus
RuntimeError: Given groups=1, weight of size [32, 44, 3], expected input[8, 29, 16] to have 44 channels, but got 29 channels instead
``` ==> Start Training Epoch 1, lr=0.001000 ... 0% 0/7355 [00:00 trainer.train(train_loader, valid_loader, max_epochs) File "/root/ER-NeRF/nerf_triplane/utils.py", line 983, in train self.train_one_epoch(train_loader) File "/root/ER-NeRF/nerf_triplane/utils.py", line 1241, in train_one_epoch self.model.update_extra_state() File "/root/miniconda3/lib/python3.8/site-packages/torch/autograd/grad_mode.py", line 27, in decorate_context return func(*args, **kwargs) File "/root/ER-NeRF/nerf_triplane/renderer.py", line 432, in update_extra_state enc_a = self.encode_audio(auds) File "/root/ER-NeRF/nerf_triplane/network.py", line 232, in encode_audio enc_a = self.audio_net(a) # [1/8, 64] File "/root/miniconda3/lib/python3.8/site-packages/torch/nn/modules/module.py", line 1130, in _call_impl return forward_call(*input, **kwargs) File "/root/ER-NeRF/nerf_triplane/network.py", line 64, in forward x = self.encoder_conv(x).squeeze(-1) File "/root/miniconda3/lib/python3.8/site-packages/torch/nn/modules/module.py", line 1130, in _call_impl return forward_call(*input, **kwargs) File "/root/miniconda3/lib/python3.8/site-packages/torch/nn/modules/container.py", line 139, in forward input = module(input) File "/root/miniconda3/lib/python3.8/site-packages/torch/nn/modules/module.py", line 1130, in _call_impl return forward_call(*input, **kwargs) File "/root/miniconda3/lib/python3.8/site-packages/torch/nn/modules/conv.py", line 307, in forward return self._conv_forward(input, self.weight, self.bias) File "/root/miniconda3/lib/python3.8/site-packages/torch/nn/modules/conv.py", line 303, in _conv_forward return F.conv1d(input, weight, bias, self.stride, RuntimeError: Given groups=1, weight of size [32, 44, 3], expected input[8, 29, 16] to have 44 channels, but got 29 channels instead ```
原因:提取aud.npy时,忘了加--asr wav2vec
参数。即使用默认的deepspeech提取的音频特征,却想用wav2vec进行训练。
python: can't open file 'nerf/asr.py': [Errno 2] No such file or directory
``` [INFO] ===== extract audio labels for data/zhf/aud.wav ===== python: can't open file 'nerf/asr.py': [Errno 2] No such file or directory [INFO] ===== extracted audio labels ===== ```
原因:源码有问题,需要改写源码。参考 issues#91
视频处理
由于我的音视频处理不够了解,我的视频处理方式并不是最好的。我的步骤如下:
- 下载“Leawo Video Converter Ultimate”软件,打开需要处理的视频。
- 使用“剪切”选择“开始时间”和“结束时间”
- 使用“剪裁”将大小调为“正方形”,变焦选择“全屏”。这个时候可能发现人物被拉长或压扁了,这个是正常的,因为播放比例不对。
- 点击转换,生成视频。
- 使用ffmpeg将视频处理为512x512的,命令为:
ffmpeg -i input.mp4 -vf scale=512:512 output.mp4
- 使用ffmpeg将视频的播放比例设置为512:512(即1:1),命令为:
ffmpeg -i input.mp4 -aspect 512:512 output.mp4
如果你是竖屏拍的,可能还需要旋转下视频。命令:
ffmpeg -i input.mp4 -vf "transpose=2" output.mp4
推理加速(使用wav2vec)
使用默认的deepspeech提取音频特征,会很慢。可以选择使用wav2vec进行音频特征提取,这样推理就会快很多。
需要在训练阶段和推理阶段增加一些参数来选择使用wav2vec:
训练阶段:
- 第2步增加
--asr wav2vec
参数:python data_utils/process.py data/<ID>/<ID>.mp4 --asr wav2vec
- 第3步的
aud_ds.npy
变成aud_eo.npy
,即将生成的aud.npy
复制一份,改名aud_eo.npy
- 第5步增加
--asr_model esperanto
参数:python main.py data/obama/ --workspace trial_obama/ -O --iters 100000 --asr_model esperanto python main.py data/obama/ --workspace trial_obama/ -O --iters 125000 --finetune_lips --patch_size 32 --asr_model esperanto python main.py data/obama/ --workspace trial_obama_torso/ -O --torso --head_ckpt trial_obama/checkpoints/ngp.pth --iters 200000 --asr_model esperanto
推理阶段:
- 第1步处理音频使用
wav2vec.py
,命令:python data_utils/wav2vec.py --wav /root/demo2.wav --save_feats
- 第2步增加
--asr_model esperanto
参数,命令为:python main.py data/obama/ --workspace trial_obama_torso/ -O --torso --test --test_train --aud /root/demo2_eo.npy --asr_model esperanto