526互联

论文阅读-Self-supervised and Interpretable Data Cleaning with Sequence Generative Adversarial Networks

发布时间 2023-12-20 21:27:22作者: Frank23

1. GARF 简介

代码地址：https://github.com/PJinfeng/Garf-master
基于 SeqGAN 提出了一种自监督、数据驱动的数据清洗框架——GARF。
GARF 的数据清洗分为两个步骤：

规则生成 (Rule generation with SeqGAN)：利用 SeqGAN 学习数据中的关系 (data relationship)。然后利用 SeqGAN 中的 genarator 生成用于数据清洗的规则 rules。
协同清洗 (Co-cleaning)：第1步中的部分规则可能是基于脏数据得到的不可信规则。在第2步中分别计算 数据 (data) 和 规则 (rules) 的可信度，
- 若数据更可信，则使用数据来更新规则
- 若规则更可信，则使用规则来更新数据

Overview of GARF

2. 训练SeqGAN

GAN 在图像领域有良好的表现，但是处理离散数据生成时表现不佳。
SeqGAN 利用了强化学习 (Reinforcement Learning)的优点解决了离散值生成的问题。
将本文中的问题转化为SeqGAN中的概念：

相关属性值作为上下文 (context)
数据集作为全集/语料库 (corpus)
元组\((v_1，v_2，...，v_n)\) 作为数据集D中的一组值序列 (value sequence)

SeqGAN training

3. 生成数据修复规则

为了将 SeqGAN 学习到的知识以可解释的方式展现，使用 adaptor 将关系转化为规则 (rules)。

规则形式：\([AL, v (AL)] → [AL, v (AR)]\)
其中， \(AL\), \(AR\)为属性名称，\(v (AL)\), \(v (AR)\)为属性的值

SeqGAN 中的生成器 \(G_s\) 的输入作为 \(AV_L\)，预测结果作为 \(AV_R\) 。
先将第\(i\)个属性键值对确定为 \(AV_R\) ，然后从 \(i-1\) 到 \(1\) 依次添加属性作为\(AV_L\)，直到 \(G_s\) 的预测结果为 \(AV_R\)。

4. 数据修复规则优化

优化的两个操作

去除匹配元组数小于2的规则
去除规则左侧冗余属性

Optimization

5. 协同清洗错误规则和脏数据

Self-supervised

self-supervised interpretable adversarial generative

self-supervised exploration generative supervised

self-supervised

self-supervised transformers lightweight supervised

self-supervised transformers supervised empirical

self-supervised bidirectional supervised learning

language-guided self-supervised segmentation

self-supervised recommendation session-based

self-supervised recommendation convolutional

self-supervised quantization augmentation randomized