纵向dataframe
DataFrame 去重,指定列去重drop_duplicates
import pandas as pd # 创建示例 DataFrame data = { 'Name': ['Alice', 'Bob', 'Alice', 'Charlie', 'Bob'], 'Age': [25, 30, 25, 35, 30] } df = pd.DataFrame(dat ......
DataFrame 存为带格式的excel文件
import pandas as pd data = { 'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35], 'Salary': [50000, 60000, 45000], 'Location': ['NY', 'CA', 'TX'] ......
DataFrame排序,单列排序,多列排序
import pandas as pd # 创建示例 DataFrame data = { 'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [30, 25, 35], 'Salary': [50000, 60000, 45000] } df = pd.Data ......
DataFrame 保留前几列和后几列
import pandas as pd data = { 'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35], 'Salary': [50000, 60000, 45000], 'Location': ['NY', 'CA', 'TX'] ......
根据DataFrame A列的值筛选DataFrame B中的数据
import pandas as pd # 创建示例 DataFrame A dataA = {'ID': [1, 2, 3, 4], 'Category': ['A', 'B', 'A', 'C']} dfA = pd.DataFrame(dataA) # 创建示例 DataFrame B dat ......
merge连接两个DataFrame
import pandas as pd # 创建左边的示例 DataFrame data1 = {'ID': [1, 2, 3, 4], 'Name': ['Alice', 'Bob', 'Charlie', 'John']} df1 = pd.DataFrame(data1) df1.set_in ......
concat 连接两个DataFrame
import pandas as pd # 创建左边的示例 DataFrame data1 = {'ID': [1, 2, 3], 'Name': ['Alice', 'Bob', 'Charlie']} df1 = pd.DataFrame(data1) df1.set_index('ID', i ......
DataFrame 计数value_counts 后转成df
import pandas as pd # 创建示例 DataFrame data = {'Category': ['A', 'B', 'A', 'C', 'A', 'B', 'C', 'A', 'B']} df = pd.DataFrame(data) # 使用 value_counts() 方法 ......
DataFrame拆分某列生成新列
import pandas as pd # 创建示例 DataFrame data = {'Name': ['Alice,25', 'Bob,30', 'Charlie,35']} df = pd.DataFrame(data) # 使用 str.split() 方法拆分 'Name' 列的数据 d ......
DataFrame 拼接几列生成新列
import pandas as pd # 创建示例 DataFrame data = {'First Name': ['Alice', 'Bob', 'Charlie'], 'Last Name': ['Smith', 'Johnson', 'Brown'], 'Age': [25, 30, 35 ......
DataFrame根据某列的值取另一列的值
import pandas as pd # 创建示例 DataFrame data = { 'A': [1, 2, 3, 4, 5], 'B': ['apple', 'banana', 'orange', 'apple', 'banana'] } df = pd.DataFrame(data) # ......
DataFrame删除某列
import pandas as pd # 创建示例 DataFrame data = { 'A': [1, 2, 3], 'B': ['a', 'b', 'c'], 'C': [10, 20, 30] } df = pd.DataFrame(data) # 使用 drop() 方法删除列 'B' ......
DataFrame 删除某行
import pandas as pd # 创建示例 DataFrame data = { 'A': [1, 2, 3], 'B': ['a', 'b', 'c'], 'C': [10, 20, 30] } df = pd.DataFrame(data) # 使用 drop() 方法删除索引为 1 ......
DataFrame 对某列求和、平均值、计数、最大值、最小值
import pandas as pd # 创建示例 DataFrame data = { 'A': [1, 2, 3, 4, 5], 'B': [10, 20, 30, 40, 50] } df = pd.DataFrame(data) # 对列 'B' 求和 column_sum = df['B ......
DataFrame 新增新列
import pandas as pd # 创建示例 DataFrame data = { 'A': [1, 2, 3], 'B': ['a', 'b', 'c'] } df = pd.DataFrame(data) # 增加新列 'C' new_data = [10, 20, 30] df['C' ......
DataFrame修改某列的值
import pandas as pd # 创建示例 DataFrame data = { 'A': [1, 2, 3], 'B': ['a', 'b', 'c'] } df = pd.DataFrame(data) # 修改列 'A' 的值 new_values = [10, 20, 30] df ......
DataFrame使用iloc选择数据
import pandas as pd # 创建示例 DataFrame data = { 'A': [1, 2, 3, 4, 5], 'B': ['a', 'b', 'c', 'd', 'e'], 'C': [10, 20, 30, 40, 50] } df = pd.DataFrame(data ......
DataFrame 使用条件索引选择满足条件的行
import pandas as pd # 创建示例 DataFrame data = { 'A': [1, 2, 3, 4, 5], 'B': ['a', 'b', 'c', 'd', 'e'], 'C': [10, 20, 30, 40, 50] } df = pd.DataFrame(data ......
DataFrame选择单列
import pandas as pd # 创建示例 DataFrame data = { 'A': [1, 2, 3], 'B': ['a', 'b', 'c'] } df = pd.DataFrame(data) # 选择单列 'A' column_A = df['A'] print(colum ......
DataFrame选择多列
import pandas as pd # 创建示例 DataFrame data = { 'A': [1, 2, 3], 'B': ['a', 'b', 'c'], 'C': [10, 20, 30] } df = pd.DataFrame(data) # 选择多列 'A' 和 'C' selec ......
查看 DataFrame 的索引
import pandas as pd # 创建示例 DataFrame data = { 'A': [1, 2, 3], 'B': ['a', 'b', 'c'] } df = pd.DataFrame(data, index=['row1', 'row2', 'row3']) # 查看 Data ......
DataFrame使用loc选择数据
import pandas as pd # 创建示例 DataFrame data = { 'A': [1, 2, 3, 4, 5], 'B': ['a', 'b', 'c', 'd', 'e'], 'C': [10, 20, 30, 40, 50] } df = pd.DataFrame(data ......
DataFrame后几行
import pandas as pd # 创建示例 DataFrame data = { 'A': [1, 2, 3, 4, 5, 6], 'B': ['a', 'b', 'c', 'd', 'e', 'f'] } df = pd.DataFrame(data) # 默认显示后5行 print(d ......
查看 DataFrame 的列名
import pandas as pd # 创建示例 DataFrame data = { 'A': [1, 2, 3], 'B': ['a', 'b', 'c'], 'C': [10, 20, 30] } df = pd.DataFrame(data) # 查看 DataFrame 的列名 col ......
DataFrame的基本统计信息
import pandas as pd # 创建示例 DataFrame data = { 'A': [1, 2, 3, 4, 5], 'B': [10, 20, 30, 40, 50] } df = pd.DataFrame(data) # 查看 DataFrame 的基本统计信息 print(d ......
DataFrame前几行
import pandas as pd # 创建示例 DataFrame data = { 'A': [1, 2, 3, 4, 5, 6], 'B': ['a', 'b', 'c', 'd', 'e', 'f'] } df = pd.DataFrame(data) # 默认显示前5行 print(d ......
pandas - pd.DataFrame()的基本操作
数据 import pandas as pd data = [ {'DEPT_NAME': '苏州市', '项目类型': '0', '已经安装': 385, '确定安装': 64, '预计安装': 422, '省份': '江苏省'}, {'DEPT_NAME': '苏州市', '项目类型': '1' ......
Ceil and floor of the dataframe in Pandas Python – Round up and Truncate
In this article, we will discuss getting the ceil and floor values of the Pandas Dataframe. First, Let’s create a dataframe. Example: Python3 # import ......
spark dataset dataframe 动态添加列
>需求 利用SparkSQL计算每一行数据的数据质量,如果数据不为NULL或者不为空字符串(或者符合正则表达式),那么该字段该行数据积一分 >网上解决方案 https://blog.csdn.net/Code_LT/article/details/87719115 https://blog.csdn ......
用concat比较两个dataframe
因为equals会比对索引等,可能出现内容相同但是行序不同比对失败,可以采用concat,去除重复后如果为空则表示数据一致。 1 #比对两个DataFrame 2 3 if df1.equals(df2): 4 return True, None 5 else: 6 diff_row = pd.co ......