Python自带数据集加载和Pandas学习简图-526互联

Python是一种强大的编程语言，它拥有丰富的工具库和功能，其中之一就是自带的数据集，这些数据集在Python中非常有用，可以用于机器学习、数据分析、科学研究等。使用Python数据集可以极大地简化项目开发过程。通过导入现有的数据集，我们可以更快地开始分析和建模，并且可以使用已经实现的算法进行评估和可视化。

一、线上数据的本地化

大家在自学Python/Stata/R的时候，有没有纠结过这个问题：想动手实践下感兴趣的命令或模型，那么就需要一个样本数据（dataframe，数据框）。去哪找省时省力，找到的数据集靠谱又好用呢？——还记之前提到过最简单的方法有两种，一是自己录入；二是导入软件自带的数据集。第一种录入数据方式一般的相关书籍都有介绍，至于第二种…...几乎很少提到过。

Available datasets2000多个数据集可下载
 Kaggle机器学习社区数据集可下载

导入自带的数据集，简单、高效，数据往往也更加真实。应该成为初学者导入数据的首选方法。
有几个常见的数据集，想必很多用户都非常熟悉——比如Stata的auto和nlsw，R语言或Python中的Iris，mtcars和Titanic。

二、Python自带数据集的使用

from sklearn.datasets import load_iris
iris = load_iris()
print(iris.keys())
print(iris.data.shape)
print(iris.feature_names)
print(iris.target)
print(iris.target_names)
print(iris.data)                 #可操作的数据

在上面的代码中，我们导入了一个名为Load_iris的自带数据集，该数据集包含鸢尾花的物种，通过调用iris.keys()，我们可以看到数据集的各个组成部分，包括数据、特征、目标等。在调用iris.data.shape时，我们可以看到数据的形状。通过iris.feature_names和iris.target_names，我们可以获得特征和目标的名称。最后，用iris.target获取每个样本的目标类别。除了Iris数据集之外，Python还自带了许多其他数据集，例如波士顿房价、手写数字等。这些数据集可以用于学习数据科学和机器学习。通过使用自带数据集，您可以快速入门Python的数据分析和机器学习工具。

三、Pandas学习简图

Python 数据分析库 Pandas 基础知识的快速指南，包括代码示例。Pandas 的 Cheat Sheet 包含 Pandas 库的基础知识，从数据结构到 I/O，选择、删除索引或列、排序和排名、检索正在使用的数据结构的基本信息到应用函数和数据对齐。

The Pandas Cheat Sheet was created using Microsoft Powerpoint 2013.
To create the PDF version, within Powerpoint, simply do a "Save As" and pick "PDF" as the format.
This cheat sheet, originally written by Irv Lustig, Princeton Consultants, was inspired by the RStudio Data Wrangling Cheatsheet.

Topic	PDF	PPT
Pandas_Cheat_Sheet
Pandas_Cheat_Sheet_JA

Alternative

Alternatively, if you want to complement your learning, you can use the Pandas Cheat sheets
developed by DataCamp in "PDF", "Google Colab" and "Streamlit" formats.