Python中可以利用PyPDF2库来获取该pdf文件的总页码,可以根据下面的方法一步步进行下去:
1、首先,要安装PyPDF2库,利用以下命令即可:
pip install PyPDF2
2、接着,就是直接编写代码了,其中我新建了一个py文件,名为file_utils.py,代码如下:
from PyPDF2 import PdfFileReader def get_num_pages(file_path): """ 获取文件总页码 :param file_path: 文件路径 :return: """ reader = PdfFileReader(file_path) # 不解密可能会报错:PyPDF2.utils.PdfReadError: File has not been decrypted if reader.isEncrypted: reader.decrypt('') page_num = reader.getNumPages() return page_num
3、这样就可以获得该pdf文件的总页数了,但是需要传递文件路径进去,因为需要读取这个文件。
4、以上内容仅供学习参考,谢谢!
补充知识:使用python合并pdf文件带书签
1、需求:
将几本纸质书进行了扫描,可是扫描的每页生成一个pdf文件。需要怎么才能把这些pdf文件合成一个呢?adoba acrobat工具支持,可是收费。我们平时用的都是adoba reader,只有读pdf的功能没有合并等高级功能。网上的一些免费工具又担心有病毒或绑定程序。
所以考虑看看pyton实现。网上找了下python合并pdf的脚本,发现也没有添加书签的功能的,有添加书签的也不是很灵活。
所有对网上找的一个python程序进行了升级,可以实现合并pdf并每个章节加入书签。
文件准备:
先将扫描的pdf文件,每一章放到一个文件夹中,文件夹名字用章节名命名。这样最终程序就能将章节名作为书签了,而不是默认将每页都生成书签。
2、程序代码
代码运行环境:python3
需要安装PyPDF2包:pip install PyPDF2
#!/usr/bin/env python3 # -*- coding: utf-8 -*- ''' 本脚本用来合并pdf文件,支持带一级子目录的 每章内容分别放在不同的目录下,目录名为章节名 最终生成的pdf,按章节名生成书签 ''' import os, sys, codecs from PyPDF2 import PdfFileReader, PdfFileWriter, PdfFileMerger import glob def getFileName(filepath): ''' 获取当前目录下的所有pdf文件 ''' file_list = glob.glob(filepath+"/*.pdf") # 默认安装字典序排序,也可以安装自定义的方式排序 # file_list.sort() return file_list def get_dirs(filepath='', dirlist_out=[], dirpathlist_out=[]): # 遍历filepath下的所有目录 for dir in os.listdir(filepath): dirpathlist_out.append(filepath + '\\' + dir) return dirpathlist_out def merge_childdir_files(path): ''' 每个子目录下合并生成一个pdf ''' dirpathlist = get_dirs(path) if len(dirpathlist) == 0: print("当前目录不存在子目录") sys.exit() for dir in dirpathlist: mergefiles(dir, dir) def mergefiles(path, output_filename, import_bookmarks=False): # 遍历目录下的所有pdf将其合并输出到一个pdf文件中,输出的pdf文件默认带书签,书签名为之前的文件名 # 默认情况下原始文件的书签不会导入,使用import_bookmarks=True可以将原文件所带的书签也导入到输出的pdf文件中 merger = PdfFileMerger() filelist = getFileName(path) if len(filelist) == 0: print("当前目录及子目录下不存在pdf文件") sys.exit() for filename in filelist: f = codecs.open(filename, 'rb') file_rd = PdfFileReader(f) short_filename = os.path.basename(os.path.splitext(filename)[0]) if file_rd.isEncrypted == True: print('不支持的加密文件:%s'%(filename)) continue merger.append(file_rd, bookmark=short_filename, import_bookmarks=import_bookmarks) print('合并文件:%s'%(filename)) f.close() # out_filename = os.path.join(os.path.abspath(path), output_filename) merger.write(output_filename + ".pdf") print('合并后的输出文件:%s'%(output_filename)) merger.close() if __name__ == "__main__": # 每个章节一个子目录,先分别合并每个子目录文件为一个pdf,然后再将这些pdf合并为一个大的pdf,这样做目的是想生成每个章节的书签 # 1.指定目录 # 原始pdf所在目录 path = "D:\spdf" # 输出pdf路径和文件名 output_filename = "D:\spdf\战略规划 公司实现持续成功的方法、工具和实践 罗熙昶 2018-09" # 2.生成子目录的pdf # merge_childdir_files(path) # 3.子目录pdf合并为总的pdf mergefiles(path, output_filename)
3、程序使用
将要生成的pdf文件目录导入到程序指定目录下,例如我程序中的path是“D:\spdf”,然后指定最终输出的文件路径及文件名,我上面的output_filename是"D:\spdf\战略规划 公司实现持续成功的方法、工具和实践 罗熙昶 2018-09"
数据结果如下:
以上这篇Python利用PyPDF2库获取PDF文件总页码实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持。
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件! 如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
RTX 5090要首发 性能要翻倍!三星展示GDDR7显存
三星在GTC上展示了专为下一代游戏GPU设计的GDDR7内存。
首次推出的GDDR7内存模块密度为16GB,每个模块容量为2GB。其速度预设为32 Gbps(PAM3),但也可以降至28 Gbps,以提高产量和初始阶段的整体性能和成本效益。
据三星表示,GDDR7内存的能效将提高20%,同时工作电压仅为1.1V,低于标准的1.2V。通过采用更新的封装材料和优化的电路设计,使得在高速运行时的发热量降低,GDDR7的热阻比GDDR6降低了70%。
更新日志
- 完美倒立.2024-夜色碳酸【草台回声】【FLAC分轨】
- 杨青《半山听雨贰HQ》头版限量编号[低速原抓WAV+CUE]
- 白玛多吉《云上西藏1+2》DTS-WAV
- 模拟之声慢刻CD《柏林之声3》[正版CD原抓WAV+CUE]
- 威神V(WayV)《The Highest》[FLAC/分轨][259.1MB]
- 余超颖《迷焕纪》[320K/MP3][201.15MB]
- 余超颖《迷焕纪》[FLAC/分轨][784.22MB]
- 温岚.2005-爱回温新歌加精选2CD【阿尔发】【WAV+CUE】
- 尤雅.1990-台语怀念金曲特选辑【太阳神】【WAV+CUE】
- 群星.2024-七夜雪电视剧影视原声带【听见时代】【FLAC分轨】
- 群星《胎教音乐 古典钢琴曲与水晶摇篮曲》[320K/MP3][134.14MB]
- 群星《胎教音乐 古典钢琴曲与水晶摇篮曲》[FLAC/分轨][654.13MB]
- 许惠钧《睡眠钢琴与校园民歌金曲 空灵新世纪催眠曲》[320K/MP3][201.15MB]
- wbg战队国籍分别都是哪里的 wbg战队2024阵容国籍介绍
- wbg战队教练是韩国人吗 s14wbg战队教练国籍介绍