老规矩. 直接第三章
3. 端到端网络结构
给一个audio 短窗口, 也就是片段. 我们预测窗口中间时刻的面部表情.
我们把表情看做一个全端点的向量 (后面我们会看这是什么的一种刻画面部)
一旦我们网络训完, 我们回各个时间点同时生成, 并行. 即使不需要过去的帧画面, 依然生成很稳定的画面. (指的是画面不会跳帧严重, 画面连贯).
- Audio-Driven End-to-End Animation End Learningaudio-driven end-to-end animation end predictron end-to-end end learning end-to-end transformers end-to-end end detection line end-to-end end detection extraction end-to-end generation language augmentation peripheral end-to-end end end-to-end end rfn-nest residual multi-instance entity-level end-to-end extraction high-fidelity parametric animation learning