Guo_AD-NeRF_Audio_Driven_Neural_Radiance_Fields_for_Talking_Head_Synthesis_ICCV_2021

可以看看这个向量场的虚拟人像的效果.

看论文第三章:

3.2:

F_theta是一个神经网络, a是声音 d 是view direction, x是3d location.

普通的向量场是 F_theta: d,x ---> (c,σ) 表示d是一个方向, 表示观看者水平的偏移角度和数值的偏移角度. x是一个3d坐标表示看物体的像素位置. 返回c是颜色, σ是体积大小.也就是像素应该涂多大.

这个论文里面就是多加入了声音.

对于音频. 我们使用deepspeech. 生成每一个20ms到一个29维度向量. 把向量放入时间卷积里面用来去噪.

输入的是 16*29. 也就是把16针当做一个音频特征一起处理, 这样会减少噪音干扰. 确实16/50 s 这个粒度还可以.

这个公式从物理来. 可以看这个推导: https://zhuanlan.zhihu.com/p/574351707

Guo_AD-NeRF_Audio_Driven_Neural_Radiance_Fields_for_Talking_Head_Synthesis_ICCV_2021_paper