什么是数据清理？

推荐：使用NSDT场景编辑器助你快速搭建可编辑的3D应用场景

在数据科学中，数据清理是识别不正确数据并修复错误的过程，以便最终数据集可供使用。错误可能包括重复字段、格式不正确、字段不完整、数据不相关或不准确以及数据损坏。

在数据科学项目中，清理阶段在数据管道中的验证之前。在管道中，每个阶段引入输入并创建输出，从而改进每一步的数据。数据管道的好处是每个步骤都有特定的用途并且是独立的，这意味着数据经过彻底检查。

数据清理在数据科学中的重要性

数据很少以现成的形式到达;事实上，可以自信地说，数据永远不会完美无缺。当从不同的来源和现实世界的环境中收集数据时，数据必然包含大量错误并采用不同的格式。因此，数据清理的意义就出现了——使数据无错误、相关且易于被模型吸收。

处理来自多个来源的大量数据集时，可能会发生错误，包括重复或错误分类。这些错误极大地影响了算法的准确性。值得注意的是，数据清理和组织可能会消耗数据科学家 80% 的时间，这凸显了其在数据管道中的关键作用。

下面是数据清理如何修复数据集中的错误的三个示例。

数据格式化

数据格式设置涉及将数据转换为特定格式或修改数据集的结构。确保一致性和结构良好的数据集对于避免数据分析过程中的错误至关重要。因此，在清洁过程中采用各种技术是必要的，以保证准确的数据格式。这可能包括将分类数据转换为数值，并将多个数据源合并为一个统一的数据集。

空值/缺失值

数据清理技术在解决数据问题（如缺失值或空值）方面起着至关重要的作用。这些技术涉及使用相关信息估计和填补数据集中的空白。

例如，考虑位置字段。如果字段为空，科学家可以使用数据集或类似数据集中的平均位置数据填充该字段。虽然不是完美无缺的，但拥有最可能的位置比根本没有位置信息更可取。这种方法可确保提高数据质量并增强数据集的整体可靠性。

识别异常值

在数据集中，某些数据点可能与其他数据点缺乏任何实质性联系（例如，在价值或行为方面）。因此，在数据分析过程中，这些异常值具有显着扭曲结果的能力，导致误导的预测和有缺陷的决策。但是，通过实施各种数据清理技术，可以识别和消除这些异常值，最终确保数据集的完整性和相关性。

数据清理提供了一系列好处，这些好处对数据的准确性、相关性、可用性和分析有重大影响。

准确性 - 使用数据清理工具和技术可显著减少数据集中包含的错误和不准确性。这对于数据分析非常重要，有助于创建做出准确预测的模型。
可用性 - 一旦清理并正确格式化，数据就可以应用于许多用例，使其更易于访问，因此可以在一系列项目类型中使用。
分析 - 干净的数据使分析阶段更加有效，使分析师能够获得更深入的见解并提供更可靠的结果。
高效的数据存储 - 通过删除不必要和重复的数据，存储成本得以降低，因为只需要保留相关的、有价值的数据，无论是在现场服务器还是云数据仓库上。
治理 - 数据清理可以帮助组织遵守严格的法规和数据治理，保护个人隐私并避免任何处罚。最近几个月颁布了更多的数据合规法律。一个例子是最近的德克萨斯州消费者隐私法（TDPSA），该法禁止某些数据做法，例如收集出于收集目的而不合理必要的个人客户数据。