数据分析报告的阅读

发布时间 2023-10-26 15:41:09作者: Tatsukyou

数据分析报告的阅读

如何生成数据分析报告

通常我们拿到一份数据时,我们希望尽快了解她的全貌,那就不可避免的要做探索性数据分析的工作(EDA)。而这项工作对于我而言一次两次到还好,有些数据集的特征值极多,且分布规律极其抽象,所以我还是希望有一种自动生成报告的方法。为此,特学习了利用pandas profiling来自动生成数据报告的方法。代码如下:

import pandas as pd
import pandas_profiling as pp

df = pd.read_csv('data/kaggle_house_pred_train.csv')

# 生成数据报告,并转换为 html 的形式
report = pandas_profiling.ProfileReport(df)
report.to_file('report.html')

如上是常用的模板,总的来说就是读入数据-->生成报告-->转换为.html

解读数据分析报告

数据报告由如下五个部分组成:数据摘要、各特征的基础分析、变量交互、缺失值和样本。

image

Overview

数据摘要可以很好的展现数据的全貌,但是缺点是没有做可视化。

image
她通常包含:属性值、样本总数、缺失值及确实率、重复行及重复率、各属性的分类

注意: 第二栏 Alerts 会给出异常提醒,包含: 属性是否服从正态分布、哪些属性有较高的相关性、属性有较高的缺失率,较高的含零率等等。

Variables

image

这里几乎涵盖所以基础探索性分析所需要的统计变量,甚至还做了可视化,这对我们分析属性值的分布情况非常有利。

同时,在这个 .html 中还可以下拉选择更多丰富的拓展。

Interactions

image

交互性分析也是一个非常强大的模块,它可以很好的可视化展现两个数值属性之间的相关性情况。

Missing Value

image

这部分包含三个功能:count、matrix、heatmap,分别是数值统计、以矩阵的方式显示、相关性热力图。

Samples

image

这部本是样本展示,一般展示前十条和后十条样本。