如何根据列值从DataFrame中选择行？-526互联

内容来自 DOC https://q.houxu6.top/?s=如何根据列值从DataFrame中选择行？

如何在Pandas中根据某列的值选择DataFrame中的行？

在SQL中，我会使用：

SELECT *
FROM table
WHERE column_name = some_value

选择某列值等于标量的行，some_value，使用 ==：

df.loc[df['column\_name'] == some_value]

选择某列值在某个可迭代对象中，some_values，使用 isin：

df.loc[df['column\_name'].isin(some_values)]

结合多个条件使用 &：

df.loc[(df['column\_name'] >= A) & (df['column\_name'] <= B)]

注意括号。由于Python的运算符优先级规则，& 的优先级比 <= 和 >= 更高。因此，最后一个示例中需要使用括号。如果不使用括号，

df['column\_name'] >= A & df['column\_name'] <= B

会被解析为

df['column\_name'] >= (A & df['column\_name']) <= B

这会导致一个 Truth value of a Series is ambiguous error。

选择某列值不等于 some_value 的行，使用 !=：

df.loc[df['column\_name'] != some_value]

isin 返回一个布尔型 Series，因此要选择某列值不在 some_values 中的行，可以使用 ~ 对布尔型 Series 取反：

df.loc[~df['column\_name'].isin(some_values)]

例如，

import pandas as pd
import numpy as np
df = pd.DataFrame({'A': 'foo bar foo bar foo bar foo foo'.split(),
                   'B': 'one one two three two two one three'.split(),
                   'C': np.arange(8), 'D': np.arange(8) * 2})
print(df)
# A B C D
# 0 foo one 0 0
# 1 bar one 1 2
# 2 foo two 2 4
# 3 bar three 3 6
# 4 foo two 4 8
# 5 bar two 5 10
# 6 foo one 6 12
# 7 foo three 7 14

print(df.loc[df['A'] == 'foo'])

输出结果为：

     A      B  C   D
0  foo    one  0   0
2  foo    two  2   4
4  foo    two  4   8
6  foo    one  6  12
7  foo  three  7  14

如果你有多个你想要包含的值，将它们放在一个列表（或更一般地说，任何可迭代对象）中，并使用 isin：

print(df.loc[df['B'].isin(['one','three'])])

输出结果为：

     A      B  C   D
0  foo    one  0   0
1  bar    one  1   2
3  bar  three  3   6
6  foo    one  6  12
7  foo  three  7  14

请注意，如果你希望经常这样做，先创建一个索引会更高效，然后使用 df.loc：

df = df.set_index(['B'])
print(df.loc['one'])

输出结果为：

       A  C   D
B              
one  foo  0   0
one  bar  1   2
one  foo  6  12

或者，如果要从索引中包括多个值，使用 df.index.isin：

df.loc[df.index.isin(['one','two'])]

输出结果为：

       A  C   D
B              
one  foo  0   0
one  bar  1   2
two  foo  2   4
two  foo  4   8
two  bar  5  10
one  foo  6  12