圆月山庄资源网 Design By www.vgjia.com
数据去重可以使用duplicated()和drop_duplicates()两个方法。
DataFrame.duplicated(subset = None,keep =‘first' )返回boolean Series表示重复行
参数:
subset:列标签或标签序列,可选
仅考虑用于标识重复项的某些列,默认情况下使用所有列
keep:{‘first',‘last',False},默认'first'
- first:标记重复,True除了第一次出现。
- last:标记重复,True除了最后一次出现。
- 错误:将所有重复项标记为True。
import numpy as np import pandas as pd from pandas import Series, DataFrame df = pd.read_csv('./demo_duplicate.csv') print(df) print(df['Seqno'].unique()) # [0. 1.] # 使用duplicated 查看 重复值 # 参数 keep 可以标记重复值 {'first','last',False} print(df['Seqno'].duplicated()) ''' 0 False 1 True 2 True 3 True 4 False Name: Seqno, dtype: bool ''' # 删除 series 重复数据 print(df['Seqno'].drop_duplicates()) ''' 0 0.0 4 1.0 Name: Seqno, dtype: float64 ''' # 删除 dataframe 重复数据 print(df.drop_duplicates(['Seqno'])) # 按照 Seqno 来 去重 ''' Price Seqno Symbol time 0 1623.0 0.0 APPL 1473411962 4 1649.0 1.0 APPL 1473411963 ''' # drop_dujplicates() 第二个参数 keep 包含的值 有: first、last、False print(df.drop_duplicates(['Seqno'], keep='last')) # 保存最后一个 ''' Price Seqno Symbol time 3 1623.0 0.0 APPL 1473411963 4 1649.0 1.0 APPL 1473411963 '''
pandas 去除重复行
DataFrame.drop_duplicates(subset = None,keep ='first',inplace = False )
subset : 指定列,默认情况下使用所有列
keep : {'first','last',False},默认'first'
first
:删除重复项保留第一次出现的。last
:删除重复项保留最后一次出现的。false:删除所有重复项。
inplace : 布尔值,默认为False 是否删除重复项或返回副本
栗子:
圆月山庄资源网 Design By www.vgjia.com
广告合作:本站广告合作请联系QQ:858582 申请时备注:广告合作(否则不回)
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件! 如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件! 如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
圆月山庄资源网 Design By www.vgjia.com
暂无评论...
RTX 5090要首发 性能要翻倍!三星展示GDDR7显存
三星在GTC上展示了专为下一代游戏GPU设计的GDDR7内存。
首次推出的GDDR7内存模块密度为16GB,每个模块容量为2GB。其速度预设为32 Gbps(PAM3),但也可以降至28 Gbps,以提高产量和初始阶段的整体性能和成本效益。
据三星表示,GDDR7内存的能效将提高20%,同时工作电压仅为1.1V,低于标准的1.2V。通过采用更新的封装材料和优化的电路设计,使得在高速运行时的发热量降低,GDDR7的热阻比GDDR6降低了70%。
更新日志
2024年11月02日
2024年11月02日
- 明达年度发烧碟MasterSuperiorAudiophile2021[DSF]
- 英文DJ 《致命的温柔》24K德国HD金碟DTS 2CD[WAV+分轨][1.7G]
- 张学友1997《不老的传说》宝丽金首版 [WAV+CUE][971M]
- 张韶涵2024 《不负韶华》开盘母带[低速原抓WAV+CUE][1.1G]
- lol全球总决赛lcs三号种子是谁 S14全球总决赛lcs三号种子队伍介绍
- lol全球总决赛lck三号种子是谁 S14全球总决赛lck三号种子队伍
- 群星.2005-三里屯音乐之男孩女孩的情人节【太合麦田】【WAV+CUE】
- 崔健.2005-给你一点颜色【东西音乐】【WAV+CUE】
- 南台湾小姑娘.1998-心爱,等一下【大旗】【WAV+CUE】
- 【新世纪】群星-美丽人生(CestLaVie)(6CD)[WAV+CUE]
- ProteanQuartet-Tempusomniavincit(2024)[24-WAV]
- SirEdwardElgarconductsElgar[FLAC+CUE]
- 田震《20世纪中华歌坛名人百集珍藏版》[WAV+CUE][1G]
- BEYOND《大地》24K金蝶限量编号[低速原抓WAV+CUE][986M]
- 陈奕迅《准备中 SACD》[日本限量版] [WAV+CUE][1.2G]