python pandas常用方法_合并Excel例子

发布时间 2023-08-23 11:04:21作者: 吃饱饱没烦恼

pandas常用方法

Pandas 是一个流行的 Python 数据分析库,用于处理和分析数据。以下是一些常用的 Pandas 方法和功能,可以帮助你在数据分析中进行各种操作:

创建和加载数据:

pd.DataFrame(data, columns=['col1', 'col2']): 创建一个数据框。
pd.read_csv('file.csv'): 从 CSV 文件中加载数据。
pd.read_excel('file.xlsx', sheet_name='Sheet1'): 从 Excel 文件中加载数据。
数据查看和摘要:

df.head(), df.tail(): 查看数据框的前几行和后几行。
df.shape: 返回数据框的行数和列数。
df.info(): 显示关于数据框的基本信息,如数据类型和缺失值。
df.describe(): 显示数值列的统计摘要信息。
选择和过滤数据:

df['column']: 选择单列数据。
df[['col1', 'col2']]: 选择多列数据。
df.loc[row_label], df.iloc[row_index]: 根据标签或索引选择行。
df[df['column'] > value]: 根据条件过滤行。
数据清洗和处理:

df.drop(columns=['col1']): 删除列。
df.dropna(): 删除包含缺失值的行或列。
df.fillna(value): 填充缺失值。
df.replace(old_value, new_value): 替换特定值。
数据排序和排名:

df.sort_values(by='column'): 根据列值排序数据。
df.rank(): 为数据分配排名。
数据聚合和分组:

df.groupby('column').mean(): 按列进行分组并计算平均值。
df.groupby(['col1', 'col2']).sum(): 按多列进行分组并计算总和。
df.pivot_table(values='value', index='index_col', columns='col2', aggfunc='mean'): 创建透视表。
数据操作和转换:

df.apply(func): 应用函数到列或行。
df.merge(other_df, on='key_column'): 执行类似数据库 JOIN 操作。
df.join(other_df, on='key_column'): 连接两个数据框。
数据绘图和可视化:

df.plot(kind='line'): 绘制折线图。
df.plot(kind='bar'): 绘制条形图。
df.plot(kind='hist'): 绘制直方图。
数据保存:

df.to_csv('file.csv', index=False): 将数据保存到 CSV 文件。
df.to_excel('file.xlsx', index=False): 将数据保存到 Excel 文件。

python合并多个文件

import pandas as pd
import os

# 定义包含 Excel 文件的文件夹路径
folder_path = 'path_to_folder_with_excels'

# 获取文件夹中的所有 Excel 文件
excel_files = [file for file in os.listdir(folder_path) if file.endswith('.xlsx')]

# 创建一个空数据框用于存储合并的数据
merged_df = pd.DataFrame()

# 循环读取并合并所有 Excel 文件
for file in excel_files:
    file_path = os.path.join(folder_path, file)
    df = pd.read_excel(file_path)
    merged_df = pd.concat([merged_df, df], ignore_index=True)

# 打印合并后的数据框
print(merged_df)

# 将合并后的数据保存为一个新的 Excel 文件
merged_df.to_excel('merged_data.xlsx', index=False)

Python合并多个文件多个表V1.2

import pandas as pd

# 定义要合并的多个文件的路径列表
file_paths = ['file1.xlsx', 'file2.xlsx', 'file3.xlsx']  # 替换为实际文件路径

# 创建一个空数据框用于存储合并的数据
merged_df = pd.DataFrame()

# 循环读取每个文件的每个工作表并合并
for file_path in file_paths:
    xls = pd.ExcelFile(file_path)
    for sheet_name in xls.sheet_names:
        df = pd.read_excel(xls, sheet_name)
        merged_df = pd.concat([merged_df, df], ignore_index=True)

# 打印合并后的数据框
print(merged_df)

# 将合并后的数据保存为一个新的 Excel 文件
merged_df.to_excel('merged_sheets.xlsx', index=False)

# V1.3
import pandas as pd

# 定义要合并的多个文件的路径列表
file_paths = ['file1.xlsx', 'file2.xlsx', 'file3.xlsx']  # 替换为实际文件路径

# 创建一个空数据框用于存储合并的数据
merged_df = pd.DataFrame()

# 循环读取每个文件的每个工作表并合并
for file_path in file_paths:
    xls = pd.ExcelFile(file_path)
    for sheet_name in xls.sheet_names:
        df = pd.read_excel(xls, sheet_name)
        df['File'] = file_path  # 添加一个列以标识文件来源
        df['Sheet'] = sheet_name  # 添加一个列以标识工作表名称
        merged_df = pd.concat([merged_df, df], ignore_index=True)

# 打印合并后的数据框
print(merged_df)

# 将合并后的数据保存为一个新的 Excel 文件
merged_df.to_excel('merged_sheets.xlsx', index=False)