Pandas 数据帧duplicated()方法

原文:https://www.studytonight.com/pandas/pandas-dataframe-duplicated-method

在本教程中,我们将学习 PandasDataFrame.duplicated()方法。它返回表示重复行的布尔序列。我们可以考虑某些列,但它是可选的。它返回每个重复行的布尔序列。

下图显示了DataFrame.duplicated()方法的语法。

句法

DataFrame.duplicated(subset=None, keep='first')

因素

子集:列标签或标签序列,可选

仅考虑用于识别重复项的特定列,默认情况下使用所有列。

keep: {'first ',' last ',False},默认为' first '

确定要标记哪些副本(如果有)。

  • first:除第一次出现外,将重复标记为True

  • last:除最后一次出现外,将重复标记为True

  • 假:将所有重复标记为True

示例 1:使用DataFrame.duplicated()方法查找重复的列

下面的示例显示了默认情况下,对于数据帧中的每组重复值,第一个匹配项设置在False上,所有其他匹配项设置在True上。

import pandas as pd
df = pd.DataFrame({'Name': ['Navya','Vindya', 'Navya', 'Vindya','Sinchana','Sinchana'],'Skills': ['Python','Java','Python','Java','Java','Java']})
print("-----------DataFrame--------")
print(df)
print("------Finding duplicates rows-------")
print(df.duplicated())

一旦我们运行该程序,我们将获得以下输出。

  • DataFrame - 名称技巧 0 纳维雅 Python 1 Vindya Java 2 纳维雅 Python 3 Vindya Java 4 Sinchana Java 5 Sinchana Java -查找重复行- 0 False 1 False 2 True 3 True 4 False 5 True dtype:bool

示例 2:使用DataFrame.duplicated()方法查找重复的列

下面的例子显示了通过使用‘last’,每组重复值的最后一次出现被设置在False上,所有其他的都被设置在True上。

import pandas as pd
df = pd.DataFrame({'Name': ['Navya','Vindya', 'Navya', 'Vindya','Sinchana','Sinchana'],'Skills': ['Python','Java','Python','Java','Java','Java']})
print("-----------DataFrame--------")
print(df)
print("------Finding duplicates rows-------")
print(df.duplicated(keep='last'))

一旦我们运行该程序,我们将获得以下输出。

  • DataFrame - 名称技巧 0 纳维雅 Python 1 Vindya Java 2 纳维雅 Python 3 Vindya Java 4 Sinchana Java 5 Sinchana Java -查找重复行- 0 True 1 True 2 False 3 False 4 True 5 False dtype:bool

示例 3:使用DataFrame.duplicated()方法查找重复的列

下面的例子显示了通过在False上设置keep,所有的副本都是True

import pandas as pd
df = pd.DataFrame({'Name': ['Navya','Vindya', 'Navya', 'Vindya','Sinchana','Sinchana'],'Skills': ['Python','Java','Python','Java','Java','Java']})
print("-----------DataFrame--------")
print(df)
print("------Finding duplicates rows-------")
print(df.duplicated(keep=False))

一旦我们运行该程序,我们将获得以下输出。

  • DataFrame - 名称技巧 0 纳维雅 Python 1 Vindya Java 2 纳维雅 Python 3 Vindya Java 4 Sinchana Java 5 Sinchana Java -查找重复行- 0 True 1 True 2 True 3 True 4 True 5 True dtype:bool

示例 4:使用DataFrame.duplicated()方法查找重复的列

以下示例显示了如何使用subset方法在特定列中查找重复项。

import pandas as pd
df = pd.DataFrame({'Name': ['Navya','Vindya', 'Navya', 'Vindya','Sinchana','Sinchana'],'Skills': ['Python','Java','Python','Java','Java','Java']})
print("-----------DataFrame--------")
print(df)
print("------Finding duplicates rows-------")
print(df.duplicated(subset=['Skills']))

一旦我们运行该程序,我们将获得以下输出。

  • DataFrame - 名称技巧 0 纳维雅 Python 1 Vindya Java 2 纳维雅 Python 3 Vindya Java 4 Sinchana Java 5 Sinchana Java -查找重复行- 0 False 1 False 2 True 3 True 4 True 5 True dtype:bool

结论:

在本教程中,我们学习了 PandasDataFrame.duplicated()方法。我们学习了语法、参数,并通过在数据帧上应用这种方法,我们解决了示例并理解了DataFrame.duplicated()方法。