圆月山庄资源网 Design By www.vgjia.com
多线程爬虫:即程序中的某些程序段并行执行,
合理地设置多线程,可以让爬虫效率更高
糗事百科段子普通爬虫和多线程爬虫
分析该网址链接得出:
https://www.qiushibaike.com/8hr/page/页码/
多线程爬虫也就和JAVA的多线程差不多,直接上代码
''' #此处代码为普通爬虫 import urllib.request import urllib.error import re headers = ("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36") opener = urllib.request.build_opener() opener.addheaders = [headers] urllib.request.install_opener(opener) for i in range(1,2): url = "https://www.qiushibaike.com/8hr/page/"+str(i)+"/" pagedata = urllib.request.urlopen(url).read().decode("utf-8","ignore") pattern = '<div class="content">.*"第"+str(i)+"页第"+str(j)+"个段子内容是:") print(datalist[j]) ''' ''' #此处为多线程介绍代码 import threading #导入多线程包 class A(threading.Thread): #创建一个多线程A def __init__(self): #必须包含的两个方法之一:初始化线程 threading.Thread.__init__(self) def run(self): #必须包含的两个方法之一:线程运行方法 for i in range(0,11): print("我是线程A") class B(threading.Thread): #创建一个多线程A def __init__(self): #必须包含的两个方法之一:初始化线程 threading.Thread.__init__(self) def run(self): #必须包含的两个方法之一:线程运行方法 for i in range(0,11): print("我是线程B") t1 = A() #线程实例化 t1.start() #线程运行 t2 = B() t2.start() ''' #此处为修改后的多线程爬虫 #使用多线程进行奇偶页的爬取 import urllib.request import urllib.error import re import threading headers = ("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36") opener = urllib.request.build_opener() opener.addheaders = [headers] urllib.request.install_opener(opener) class one(threading.Thread): #爬取奇数页内容 def __init__(self): threading.Thread.__init__(self) def run(self): for i in range(1,12,2): url = "https://www.qiushibaike.com/8hr/page/"+str(i)+"/" pagedata = urllib.request.urlopen(url).read().decode("utf-8","ignore") pattern = '<div class="content">.*"第"+str(i)+"页第"+str(j)+"段子内容为:") print(datalist[j]) class two(threading.Thread): #爬取奇数页内容 def __init__(self): threading.Thread.__init__(self) def run(self): for i in range(2,12,2): url = "https://www.qiushibaike.com/8hr/page/"+str(i)+"/" pagedata = urllib.request.urlopen(url).read().decode("utf-8","ignore") pattern = '<div class="content">.*"第"+str(i)+"页第"+str(j)+"段子内容为:") print(datalist[j]) t1 = one() t2 = two() t1.start() t2.start()
以上这篇Python多线程爬虫实战_爬取糗事百科段子的实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持。
圆月山庄资源网 Design By www.vgjia.com
广告合作:本站广告合作请联系QQ:858582 申请时备注:广告合作(否则不回)
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件! 如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件! 如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
圆月山庄资源网 Design By www.vgjia.com
暂无评论...
RTX 5090要首发 性能要翻倍!三星展示GDDR7显存
三星在GTC上展示了专为下一代游戏GPU设计的GDDR7内存。
首次推出的GDDR7内存模块密度为16GB,每个模块容量为2GB。其速度预设为32 Gbps(PAM3),但也可以降至28 Gbps,以提高产量和初始阶段的整体性能和成本效益。
据三星表示,GDDR7内存的能效将提高20%,同时工作电压仅为1.1V,低于标准的1.2V。通过采用更新的封装材料和优化的电路设计,使得在高速运行时的发热量降低,GDDR7的热阻比GDDR6降低了70%。
更新日志
2024年11月16日
2024年11月16日
- 第五街的士高《印度激情版》3CD [WAV+CUE][2.4G]
- 三国志8重制版哪个武将智力高 三国志8重制版智力武将排行一览
- 三国志8重制版哪个武将好 三国志8重制版武将排行一览
- 三国志8重制版武将图像怎么保存 三国志8重制版武将图像设置方法
- 何方.1990-我不是那种人【林杰唱片】【WAV+CUE】
- 张惠妹.1999-妹力新世纪2CD【丰华】【WAV+CUE】
- 邓丽欣.2006-FANTASY【金牌大风】【WAV+CUE】
- 饭制《黑神话》蜘蛛四妹手办
- 《燕云十六声》回应跑路:年内公测版本完成95%
- 网友发现国内版《双城之战》第二季有删减:亲亲环节没了!
- 邓丽君2024-《漫步人生路》头版限量编号MQA-UHQCD[WAV+CUE]
- SergeProkofievplaysProkofiev[Dutton][FLAC+CUE]
- 永恒英文金曲精选4《TheBestOfEverlastingFavouritesVol.4》[WAV+CUE]
- 群星《国风超有戏 第9期》[320K/MP3][13.63MB]
- 群星《国风超有戏 第9期》[FLAC/分轨][72.56MB]