pandas

Pandas中如何统计各个销售地出线的次数?

大家好,我是皮皮。 一、前言 前几天在Python最强王者交流群【wen】问了一个Pandas数据处理的问题,一起来看看吧。 他的代码如下: import pandas as pd results = [] df = pd.read_excel('G:\合并结果+2023-09-22.xlsx',d ......
销售地 次数 Pandas

用pandas探索你的数据(五)-合并数据

用pandas探索你的数据(五)-合并数据 在数据处理和分析中,数据的合并是一项关键任务。Pandas 提供了丰富的工具来处理不同来源的数据,并将它们合并成一个更大的数据集。在这篇文章中,我们将深入探讨 Pandas 中两个重要的数据合并函数:pd.concat() 和 pd.merge()。 首先 ......
数据 pandas

python pandas.DataFrame.plot( )画图

python pandas.DataFrame.plot( )画图 DataFrame.plot(x=None, y=None, kind='line', ax=None, subplots=False, sharex=None, sharey=False, layout=None,figsize= ......
DataFrame python pandas plot

透彻理解 pandas 切片中 df.loc ,df.iloc

在处理 pandas 数据框时,选择数据是非常常见的操作。为了满足这种需求,pandas 提供了多种选择数据的方法,其中最常用的是 df.loc 和 df.iloc。尽管它们在许多情况下都可以互换使用,但它们之间确实存在一些关键区别,初学者必须明确这些区别以避免潜在的错误。 1. 基本定义 df.l ......
pandas df iloc loc

pandas(进阶操作)-- 处理非数值型数据 -- 数据分析三剑客(核心)

博客地址:https://www.cnblogs.com/zylyehuo/ 开发环境 anaconda 集成环境:集成好了数据分析和机器学习中所需要的全部环境 安装目录不可以有中文和特殊符号 jupyter anaconda提供的一个基于浏览器的可视化开发工具 import numpy as np ......
数据 三剑客 数据分析 数值 核心

modin pandas 大规模数据处理方案

modin 是一个可以快速替换原生pandas 的方案,我们只需要替换一个简单的引用,就可以将pandas 的数据处理速度有很大的提升modin 支持与不少框架的集成(ray, dask,unidisk),目前modin 对于常用read 操作都有很不错的支持,参考图 参考架构 如下图,可以看出mo ......
数据处理 大规模 方案 数据 pandas

pandas -- DataFrame的级联以及合并操作

博客地址:https://www.cnblogs.com/zylyehuo/ 开发环境 anaconda 集成环境:集成好了数据分析和机器学习中所需要的全部环境 安装目录不可以有中文和特殊符号 jupyter anaconda提供的一个基于浏览器的可视化开发工具 import pandas as p ......
DataFrame pandas

基于pandas的数据清洗 -- 异常值的清洗

博客地址:https://www.cnblogs.com/zylyehuo/ 开发环境 anaconda 集成环境:集成好了数据分析和机器学习中所需要的全部环境 安装目录不可以有中文和特殊符号 jupyter anaconda提供的一个基于浏览器的可视化开发工具 自定义一个1000行3列(A,B,C ......
数据 pandas

基于pandas的数据清洗 -- 重复值的清洗

博客地址:https://www.cnblogs.com/zylyehuo/ 开发环境 anaconda 集成环境:集成好了数据分析和机器学习中所需要的全部环境 安装目录不可以有中文和特殊符号 jupyter anaconda提供的一个基于浏览器的可视化开发工具 df = DataFrame(dat ......
数据 pandas

基于pandas的数据清洗 -- 缺失值(空值)的清洗

博客地址:https://www.cnblogs.com/zylyehuo/ 开发环境 anaconda 集成环境:集成好了数据分析和机器学习中所需要的全部环境 安装目录不可以有中文和特殊符号 jupyter anaconda提供的一个基于浏览器的可视化开发工具 丢失数据的类型 原始数据中会存在两种 ......
缺失 数据 pandas

pandas 加载minio 文件数据

就是一个简单记录,基于s3 进行文件存储还是比较方便的 环境准备 docker-compose.yaml version: '3' services: minio: image: minio/minio ports: - "9002:9000" - "19001:19001" environment ......
文件 数据 pandas minio

机器学习之数据处理及分析库Pandas

简介 Pandas工具包是专门用作数据处理和分析的,其底层的计算其实都是由Numpy来完成,再把复杂的操作全部封装起来,使其用起来十分高效、简洁。在数据科学领域,无论哪个方向都是跟数据打交道,所以Pandas工具包是非常实用的。 数据预处理 import pandas as pd df = pd.r ......
数据处理 机器 数据 Pandas

pandas -- 处理非数值型数据 -- 数据分析三剑客(核心)

博客地址:https://www.cnblogs.com/zylyehuo/ 为什么学习pandas numpy已经可以帮助我们进行数据的处理了,那么学习pandas的目的是什么呢? numpy能够帮助我们处理的是数值型的数据,当然在数据分析中除了数值型的数据还有好多其他类型的数据(字符串,时间序列 ......
数据 三剑客 数据分析 数值 核心

pandas读取一个文件夹下所有excel表格中的第三个sheet,怎么破?

大家好,我是皮皮。 一、前言 前几天在Python最强王者交流群【wen】问了一个Python自动化办公的问题,一起来看看吧。 请教,pandas读取一个文件夹下所有excel表格中的第三个sheet,但是不同的excel的第三个sheet name也不同,怎么设定参数比较方面呢? 二、实现过程 这 ......
文件夹 表格 三个 文件 pandas

【Pandas笔记总结】

【一】Pandos初识 Pandas是什么 Pandas主要特点 Pandas主要优势 Pandas内置数据结构 Pandas下载与安装 【二】Pandas Series入门 Pandas Series 是什么 Pandas Series 创建 Pandas Series 访问 Pandas Ser ......
笔记 Pandas

【6.0】Pandas绘图

【一】Pandas绘图 Pandas 在数据分析、数据可视化方面有着较为广泛的应用,Pandas 对 Matplotlib 绘图软件包的基础上单独封装了一个plot()接口,通过调用该接口可以实现常用的绘图操作。 本节我们深入讲解一下 Pandas 的绘图操作。 Pandas 之所以能够实现了数据可 ......
Pandas 6.0

【2.0】Pandas Series入门

【一】Pandas Series Series 结构,也称 Series 序列,是 Pandas 常用的数据结构之一,它是一种类似于一维数组的结构,由一组数据值(value)和一组标签组成,其中标签与数据值之间是一一对应的关系。 Series 可以保存任何数据类型,比如整数、字符串、浮点数、Pyth ......
Pandas Series 2.0

【3.0】Pandas DataFrame入门

【一】引入 DataFrame 是 Pandas 的重要数据结构之一,也是在使用 Pandas 进行数据分析过程中最常用的结构之一,可以这么说,掌握了 DataFrame 的用法,你就拥有了学习数据分析的基本能力。 【二】认识DataFrame结构 DataFrame 一个表格型的数据结构,既有行标 ......
DataFrame Pandas 3.0

【5.0】Pandas描述性统计

【一】Python Pandas描述性统计 描述统计学(descriptive statistics)是一门统计学领域的学科,主要研究如何取得反映客观现象的数据,并以图表形式对所搜集的数据进行处理和显示,最终对数据的规律、特征做出综合性的描述分析。 Pandas 库正是对描述统计学知识完美应用的体现 ......
描述性 Pandas 5.0

【7.0】Pandas csv读写文件

【一】Python Pandas读取文件 当使用 Pandas 做数据分析的时,需要读取事先准备好的数据集,这是做数据分析的第一步。 Panda 提供了多种读取数据的方法: read_csv() 用于读取文本文件 read_json() 用于读取 json 文件 read_sql_query() 读 ......
文件 Pandas 7.0 csv

【8.0】Pandas和NumPy的比较

【一】引入 我们知道 Pandas 是在 NumPy 的基础构建而来 因此,熟悉 NumPy 可以更加有效的帮助我们使用 Pandas。 NumPy 主要用 C语言编写 因此,在计算还和处理一维或多维数组方面,它要比 Python 数组快得多。 关于 NumPy 的学习,可以参考《Python Nu ......
Pandas NumPy 8.0

【4.0】Pandas Panel三维数据结构

【一】三维数据结构 Panel 结构也称“面板结构”,它源自于 Panel Data 一词,翻译为“面板数据”。 如果您使用的是 Pandas 0.25 以前的版本,那么您需要掌握本节内容,否则,作为了解内容即可。 自 Pandas 0.25 版本后, Panel 结构已经被废弃。 Panel 是一 ......
数据结构 结构 数据 Pandas Panel

pandas学习-基础用法

导入数据、数据的基本操作¶ 导入libraries¶ In [1]: import pandas as pd import numpy as np import os 导入数据¶ In [2]: file_path = os.path.abspath('data/chipotle.tsv') fil ......
基础 pandas

pandas学习-函数drop_duplicates的用法

pandas函数drop_duplicates用于去除DataFrame中的重复行。 语法: DataFrame.drop_duplicates(subset=None, keep='first', inplace=False) 参数说明: subset:指定要考虑的列名或列名的列表。默认值为Non ......

【Pandas】groupby连用的count()和size()的区别

groupby连用的count()和size()的区别 count() 计算的是 value(数值); size() 计算的是 size(个数) 我们有以下表: size() age = df.groupby(by='Nation').size().reset_index() age 可以发现,si ......
groupby Pandas count size

时间序列的重采样和pandas的resample方法介绍

重采样是时间序列分析中处理时序数据的一项基本技术。它是关于将时间序列数据从一个频率转换到另一个频率,它可以更改数据的时间间隔,通过上采样增加粒度,或通过下采样减少粒度。在本文中,我们将深入研究Pandas中重新采样的关键问题。 为什么重采样很重要? 时间序列数据到达时通常带有可能与所需的分析间隔不匹 ......
时间序列 序列 resample 时间 方法

pandas使用 - 取数据

涉及的几个类 pandas.core.frame.DataFrame:表示二维数据,比如:表格数据 pandas.core.series.Series:表示一维数据,比如:一行数据,或一列数据 取行用法 DataFrame[row_slice] DataFrame.loc[rowName | row ......
数据 pandas

用pandas实现表格的内连接、外连接、左连接和右连接

基于pd.merge函数,实现两个表格的内连接、外连接、左连接和右连接,代码示例如下 import pandas as pd df1 = pd.DataFrame({'year':[2020,2020,2021,2021], 'company':['apple','google','apple',' ......
表格 pandas

【小睿的ML之路】Pandas自定义函数(含泰坦尼克号数据分析案例实战)

import pandas as pd titanic_survival = pd.read_csv("titanic_train.csv") # 返回第一百行数据 def hundredth_row(column): hundredth_item = column.loc[99] return h ......
数据分析 函数 实战 案例 数据

pandas-排序

pandas-排序 目录pandas-排序sort_values()值排序sort_index()标签排序nlargest()rank()排名参考资料 Pandas 提供了多种排序数据的方法 sort_values()值排序 作用:既可以根据列数据,也可根据行数据排序 DataFrame.sort_ ......
pandas