Python自带数据集加载和Pandas学习简图

发布时间 2023-11-29 09:19:28作者: 郝hai

Python是一种强大的编程语言,它拥有丰富的工具库和功能,其中之一就是自带的数据集,这些数据集在Python中非常有用,可以用于机器学习、数据分析、科学研究等。使用Python数据集可以极大地简化项目开发过程。通过导入现有的数据集,我们可以更快地开始分析和建模,并且可以使用已经实现的算法进行评估和可视化。

一、线上数据的本地化

大家在自学Python/Stata/R的时候,有没有纠结过这个问题:想动手实践下感兴趣的命令或模型,那么就需要一个样本数据(dataframe,数据框)。去哪找省时省力,找到的数据集靠谱又好用呢?——还记之前提到过最简单的方法有两种,一是自己录入;二是导入软件自带的数据集。第一种录入数据方式一般的相关书籍都有介绍,至于第二种…...几乎很少提到过。

Available datasets2000多个数据集可下载
Kaggle机器学习社区数据集可下载

导入自带的数据集,简单、高效,数据往往也更加真实。应该成为初学者导入数据的首选方法。
有几个常见的数据集,想必很多用户都非常熟悉——比如Stata的auto和nlsw,R语言或Python中的Iris,mtcars和Titanic。

二、Python自带数据集的使用

from sklearn.datasets import load_iris
iris = load_iris()
print(iris.keys())
print(iris.data.shape)
print(iris.feature_names)
print(iris.target)
print(iris.target_names)
print(iris.data)                 #可操作的数据

在上面的代码中,我们导入了一个名为Load_iris的自带数据集,该数据集包含鸢尾花的物种,通过调用iris.keys(),我们可以看到数据集的各个组成部分,包括数据、特征、目标等。在调用iris.data.shape时,我们可以看到数据的形状。通过iris.feature_names和iris.target_names,我们可以获得特征和目标的名称。最后,用iris.target获取每个样本的目标类别。除了Iris数据集之外,Python还自带了许多其他数据集,例如波士顿房价、手写数字等。这些数据集可以用于学习数据科学和机器学习。通过使用自带数据集,您可以快速入门Python的数据分析和机器学习工具。

三、Pandas学习简图

Python 数据分析库 Pandas 基础知识的快速指南,包括代码示例。Pandas 的 Cheat Sheet 包含 Pandas 库的基础知识,从数据结构到 I/O,选择、删除索引或列、排序和排名、检索正在使用的数据结构的基本信息到应用函数和数据对齐。

The Pandas Cheat Sheet was created using Microsoft Powerpoint 2013.
To create the PDF version, within Powerpoint, simply do a "Save As" and pick "PDF" as the format.
This cheat sheet, originally written by Irv Lustig, Princeton Consultants, was inspired by the RStudio Data Wrangling Cheatsheet.

Topic PDF PPT
Pandas_Cheat_Sheet
Pandas_Cheat_Sheet_JA

Alternative

Alternatively, if you want to complement your learning, you can use the Pandas Cheat sheets
developed by DataCamp in "PDF", "Google Colab" and "Streamlit" formats.

Topic PDF Streamlit Google Colab
Pandas Open In Colab