Python 数据分析之逐块读取文本的实现

脚本专栏 2025/1/23 佚名

3 2 1

圆月山庄资源网 Design By www.vgjia.com

背景

《利用Python进行数据分析》，第 6 章的数据加载操作 read_xxx，有 chunksize 参数可以进行逐块加载。

经测试，它的本质就是将文本分成若干块，每次处理 chunksize 行的数据，最终返回一个TextParser 对象，对该对象进行迭代遍历，可以完成逐块统计的合并处理。

示例代码

文中的示例代码分析如下：

from pandas import DataFrame,Series
import pandas as pd
 
path='D:/AStudy2018/pydata-book-2nd-edition/examples/ex6.csv'
# chunksize return TextParser
chunker=pd.read_csv(path,chunksize=1000)
 
# an array of Series
tot=Series([])
chunkercount=0
for piece in chunker:
	print '------------piece[key] value_counts start-----------'
	#piece is a DataFrame,lenth is chunksize=1000,and piece[key] is a Series ,key is int ,value is the key column
	print piece['key'].value_counts()
	print '------------piece[key] value_counts end-------------'
	#piece[key] value_counts is a Series ,key is the key column, and value is the key count
	tot=tot.add(piece['key'].value_counts(),fill_value=0)
	chunkercount+=1
 
#last order the series
tot=tot.order(ascending=False)
print chunkercount
print '--------------'

流程分析

首先，例子数据 ex6.csv 文件总共有 10000 行数据，使用 chunksize=1000 后，read_csv操作返回一个 TextParser 对象，该对象总共有10个元素，遍历过程中打印 chunkercount验证得到。

其次，每个 piece 对象是一个 DataFrame 对象，piece['key'] 得到的是一个 Series 对象，默认是数值索引，值为 csv 文件中的 key 列的值，即各个字符串。

将每个 Series 的 value_counts 作为一个Series，与上一次统计的 tot 结果进行 add 操作，最终得到所有块数据中各个 key 的累加值。

最后，对 tot 进行 order 排序，按降序得到各个 key 的值在 csv 文件中出现的总次数。

这里很巧妙了使用 Series 对象的 add 操作，对两个 Series 执行 add 操作，即合并相同key：key相同的记录的值累加，key不存在的记录设置填充值为0。

输出结果为：

Python,逐块读取文本

标签：

Python,逐块读取文本

圆月山庄资源网 Design By www.vgjia.com

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站文章均来自网站采集或用户投稿，网站不提供任何软件下载或自行开发的软件！如有用户或公司发现本站内容信息存在侵权行为，请邮件告知！ 858582#qq.com

圆月山庄资源网 Design By www.vgjia.com

评论“Python 数据分析之逐块读取文本的实现”

暂无评论...

P70系列延期，华为新旗舰将在下月发布

3月20日消息，近期博主@数码闲聊站透露，原定三月份发布的华为新旗舰P70系列延期发布，预计4月份上市。

而博主@定焦数码爆料，华为的P70系列在定位上已经超过了Mate60，成为了重要的旗舰系列之一。它肩负着重返影像领域顶尖的使命。那么这次P70会带来哪些令人惊艳的创新呢？
根据目前爆料的消息来看，华为P70系列将推出三个版本，其中P70和P70 Pro采用了三角形的摄像头模组设计，而P70 Art则采用了与上一代P60 Art相似的不规则形状设计。这样的外观是否好看见仁见智，但辨识度绝对拉满。

更新日志

2025年01月23日

Python 数据分析之逐块读取文本的实现

背景

示例代码

流程分析

Python,逐块读取文本

Python 排序最长英文单词链(列表中前一个单词末字母是下一个单词的首字母)

Python实现Kerberos用户的增删改查操作

评论“Python 数据分析之逐块读取文本的实现”

P70系列延期，华为新旗舰将在下月发布

更新日志

友情链接