import pandas as pd
# 设置最大列数为 None,以显示所有列
pd.set_option('display.max_columns', None)
# 设置最大行数为 None,以显示所有行
pd.set_option('display.max_rows', None)
# 读取Excel数据文件
data = pd.read_excel('C:\\Users\\Admin\\Desktop\\数据核对\\工作簿2.xlsx', nrows=600)
# 输出全部数据(显示所有行和列)
print(data)
# 将DataFrame的索引设置为“货件单号”和“SKU”,以便后续操作
data = data.set_index(['货件单号', 'SKU'])
# 将“签收明细”这一列进行拆分,并将拆分后的每个数据项排成多行
data = data['签收明细'].str.split('\n', expand=True).stack().reset_index(level=2, drop=True)
data.name = '签收明细'
# 从拆分后的数据中提取“日期”和“数量”两列
data = data.str.split(' \| ', expand=True)
data.columns = ['日期', '数量']
data['日期'] = pd.to_datetime(data['日期'])
data['数量'] = pd.to_numeric(data['数量'])
# 筛选出 2023 年 7 月 1 日之后的数据,并将结果保存到 Excel 文件中
result = data[data['日期'] >= '2023-07-01'].reset_index() # 筛选符合条件的行,并重置索引
result.to_excel('2023年7月1号之后签收数据.xlsx', index=True) # 将结果保存到 Excel 文件中
# 输出提示信息
print(f"结果已经保存到文件中:2023年7月1号之后签收数据.xlsx")