Note：[ wechat：Y466551 | 付费咨询，非诚勿扰 ]

论文信息

论文标题：Cluster Alignment with a Teacher for Unsupervised Domain Adaptation
论文作者：Zhijie Deng, Yucen Luo, Jun Zhu
论文来源：2020 ICCV
论文地址：download
论文代码：download
视屏讲解：click

1 介绍

2 方法

2.1 模型框架

2.2 Cluster Alignment with a Teacher

　　目标：discriminative learning 和 class-conditional alignment between domains？

　　　　$\min _{\theta} \mathcal{L}_{y}+\alpha\left(\mathcal{L}_{c}+\mathcal{L}_{a}\right) \quad(1)$

2.2.1 Discriminative clustering with a teacher

　　目标函数：

　　　　$\mathcal{L}_{c}\left(\mathcal{X}_{s}, \mathcal{X}_{t}\right)=\mathcal{L}_{c}\left(\mathcal{X}_{s}\right)+\mathcal{L}_{c}\left(\mathcal{X}_{t}\right)$

　　　　$\begin{aligned}\mathcal{L}_{c}(\mathcal{X})= \frac{1}{|\mathcal{X}|^{2}} \sum_{i=1}^{|\mathcal{X}|} \sum_{j=1}^{|\mathcal{X}|}\left[\delta_{i j} d\left(f\left(x^{i}\right), f\left(x^{j}\right)\right)+\right.\left.\left(1-\delta_{i j}\right) \max \left(0, m-d\left(f\left(x^{i}\right), f\left(x^{j}\right)\right)\right)\right]\end{aligned}$

　　其中，$\delta_{i j}$ 代表样本 $x_i$ 和样本 $x_j$ 是不是同一类；

　　Note：目标域样本的标签（伪）由教师分类器给出；

　　Note：可能会怀疑，教师分类器的错误预测是否会破坏训练的动态。然而，先前关于半监督学习[17,43]的研究已经验证了这种训练总是能导致良好的收敛性，并证明了对不正确标签的鲁棒性。

2.2.2 Cluster alignment via conditional feature matching

　　类条件特征对齐：

　　　　$\min _{\theta} \mathcal{D}\left(\mathcal{F}_{s, k} \| \mathcal{F}_{t, k}\right)$

　　其中，$\mathcal{F}_{s, k}\left(\mathcal{F}_{t, k}\right) $ 表示由属于源域（目标域）的类 $k$ 的所有特征组成的集合。

　　Cluster alignment loss 如下：

　　　　$\mathcal{L}_{a}\left(\mathcal{X}_{s}, \mathcal{Y}_{s}, \mathcal{X}_{t}\right)=\frac{1}{K} \sum_{k=1}^{K}\left\|\lambda_{s, k}-\lambda_{t, k}\right\|_{2}^{2}$

　　其中：

　　　　$\lambda_{s, k}=\frac{1}{\left|\mathcal{X}_{s, k}\right|} \sum_{x_{s}^{i} \in \mathcal{X}_{s, k}} f\left(x_{s}^{i}\right)$

　　　　$\lambda_{t, k}=\frac{1}{\left|\mathcal{X}_{t, k}\right|} \sum_{x_{t}^{i} \in \mathcal{X}_{t, k}} f\left(x_{t}^{i}\right)$

2.3 Improved marginal distribution alignment

　　最后作者还做了一些提高，这是因为实验观察到：一开始训练的时候，teacher 对于目标域的判断并不果断，即分类结果更多聚集在分类边界附近，而不是类别中心。

　　目标函数：

　　　　$\begin{array}{c}\min _{\theta} \max _{\phi} \mathcal{L}_{d}\left(\mathcal{X}_{s}, \mathcal{X}_{t}\right)=\frac{1}{N} \sum_{i=1}^{N}\left[\log c\left(f\left(x_{s}^{i} ; \theta\right) ; \phi\right)\right]+ \frac{1}{\tilde{M}} \sum_{i=1}^{\tilde{M}}\left[\log \left(1-c\left(f\left(x_{t}^{i} ; \theta\right) ; \phi\right)\right) \gamma_{i}\right]\end{array}$