[论文速览] Handwriting Transformers-526互联

Pre

title: Handwriting Transformers
accepted: ICCV 2021
paper: https://arxiv.org/abs/2104.03964
code: https://github.com/ankanbhunia/Handwriting-Transformers

关键词： handwritten text generation, 英文文本手写生成
阅读理由：看看手写生成怎么结合Transformer，如何根据每个字符查询风格

Idea

把Transformer接在CNN后，英文文本手写生成任务，每个字符分配可学习变量，句子逐个字母编码后输入编码器，通过交叉注意力结合风格做生成。

Motivation&Solution

风格内容在近来的GAN方法中都是联系松散，它们分别处理二者再拼接，这样无法在字符级别明确地编码风格内容耦（style-content entanglement） —— 紧凑设计
(21年前？)现有的都是学一个全局风格，但局部的（character style, ligatures）也很重要
(x) 字符级风格内容的耦合有助于模仿特定字符的写作风格以及泛化到词汇外的内容 —— 用编码器解码器注意力机制收集每个query字符的风格表征
(x) 为了捕捉的风格，需要编码全局的（例如墨水宽度、倾斜度等）和局部的（例如字符风格、连字等）风格特征 —— 自注意力机制

图1 HWT跟其他方法的比较。HWT很好学到了红线划出的字母'n'，而蓝色和品红色划出的单词跟(a)中某些单词有重叠的部分，HWT还能在绿线划出的'also'上维持连笔与每个字母的连接性。

Background

实现任意长度多样风格的无限制真实手写文本序列生成
第一个把Transformer用来做手写文本生成

提到了ScrabbleGAN、GANwriting等，好像跟本文一样都是生成手写英文文本的。

跟GANwriting一样，本文也研究少样本下的风格手写文本合成问题，但可以灵活地生成任意长度的风格化文本，同时精度更细，可以捕捉单词/字符级的风格内容耦合。也提到引入CNN，在其特征空间中发挥Transformer的表达能力，不然Transformer对数据需求太大而且平方复杂度...

Method（Model）

Overview

图2 总体架构。里面两块黄色的，左边编码器右边解码器，二者都结合了CNN跟Transformer

enc产生某一书写者的风格特征序列，dec利用自注意力和编解码器注意力，在给定查询单词字符串的前提下来产生字符特定的风格属性。输出再扔给卷积dec，生成最终的风格手写文本图片。

每个字符c都分配一个可学习的嵌入向量 \(q_c \in \mathbb{R}^{512}\) ，对于单词 deep 就得到 \(Q_{deep}\) ，成为查询嵌入（去查每个字符的风格），这样更精细，配合Transformer还能实现可变长度的单词生成，并且能更有效地产生OOV的单词。

Encoder T_E

ResNet18先抽取风格图片的特征(shape=(h,w,d))，然后将其展平(shape=(hw,d))，其中每个向量表示原图中的一块，所有风格图片的向量拼在一起(shape=(hwP,d))

Decoder T_D

图3 编解码器最后一层注意力图可视化。这里展示了4个字母对应的热力图，如左上角高亮的就都是字母't'

编码器输出充当key,value，解码器输入作为query，如图3所示，通过交叉注意力根据Q为每个字符获取风格，最终输出为F，然后为F增加随机噪声向量，以模拟手写的随自然差异。最后由CNN解码，tanh激活，得到输出图片。

Training and Loss Objectives

如图2，一共4个损失，对应公示2~5：

基于判别器 \(D_\psi\) 的判别损失 \(L_{adv}\) ，但只管真不真，不能有效维持内容或风格
基于识别网络 \(R_\phi\) ，CTC损失，确保生成结果内容准确且可读
风格分类网络 \(S_\eta\) 交叉熵损失，预测给定手写图片的风格
风格编码器 \(T_\mathcal{E}\) 循环一致损失（L1），让风格图片和生成图片的风格特征接近

\[\begin{align*} {\cal L}_{a d v}=&\mathbb{E}\left[\operatorname*{max}\left(1-D_{\psi}(X_{i}^{s},0)\right)\right]+ \\ &\mathbb{E}\left[\mathrm{max}\left(1+D_{\psi}(G_{\theta}(X_{i}^{s},A)),0\right)\right]. \end{align*} \tag{2} \]

\[L_{R}=\mathbb{E}_{x\sim\{{X}_{i}^{s},\tilde{X}_{i}^{t}\}}\left[-\sum\log\left(p\left(y_{r}|R_{\phi}\left(x\right)\right)\right)\right]. \tag{3} \]

\[L_{S}=\mathbb{E}_{x\sim\{{X}_{i}^{s},\tilde{X}_{i}^{t}\}}\left[-\sum y_{i}l o g\left(S_{\eta}\left(x\right)\right)\right]. \tag{4} \]

\[L_{c}=\mathbb{E}\left[\left|\left|T_\mathcal{E}(X_{i}^{s})-T_\mathcal{E}({\tilde{X}}_{i}^{t})\right|\right|_{1}\right]. \tag{5} \]

\[L_{t o t a l}=L_{a d v}+L_{S}+L_{R}+L_{c}. \tag{6} \]

实验发现平衡 \(R_\phi,\; S_\eta\) 的梯度对训练有益，将二者梯度标准化（normalize），让他们标准差跟对抗损失的梯度一样：

\[\nabla S_{\eta}\leftarrow\alpha(\frac{\sigma_{D}}{\sigma_{S}}\cdot\nabla S_{\eta}), \nabla R_{\phi}\leftarrow\alpha(\frac{\sigma_{D}}{\sigma_{R}}\cdot\nabla R_{\phi}). \tag{7} \]

\(\alpha\) 是超参数，训练中固定为1

Experiment

Dataset

IAM handwriting dataset，含有9862个文本行，约62,857英文单词，500个不同的书写者。按书写者划分数据集，其中340个的图片用作训练，剩下160个的子集去测试。

Training Detail

所有实验中图片高度固定为64像素，保持原比例缩放。训练时风格图片的数量\(P=15\)。三层注意力，多头注意力头数为8，嵌入尺寸 \(d=512\) ，模型在 V100 训练 4k epoch，batchsize=8，Adam优化器，学习率 0.0002

Results

表1 指标为FID，四种实验设置：In-Vocabulary words and seen style (**IV-S**), In-Vocabulary words and unseen style (**IV-U**), Out-of-vocabulary content and seen style (**OOV-S**), Out-ofvocabulary content and unseen style (**OOV-U**).

表1中OOV-*的两种用IAM之外的400个不同单词。