引言
之前有些无聊(呆在家里实在玩的腻了),然后就去B站看了一些python爬虫视频,没有进行基础的理论学习,也就是直接开始实战,感觉跟背公式一样的进行爬虫,也算行吧,至少还能爬一些东西,hhh。我今天来分享一个我的爬虫代码。
正文
话不多说,直接上完整代码
ps:这个代码有些问题 每次我爬到fate的图片它就给我报错,我只好用个try来跳过了,如果有哪位大佬能帮我找出错误并给与纠正,我将不胜感激
import requests as r import re import os import time file_name = "动漫截图" if not os.path.exists(file_name): os.mkdir(file_name) for p in range(1,34): print("--------------------正在爬取第{}页内容------------------".format(p)) url = 'https://www.acgimage.com/shot/recommend"user-agent" : "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.162 Safari/537.36"} resp = r.get(url, headers=headers) html = resp.text images = re.findall('data-original="(.*" ', html) names =re.findall('title="(.*"', html) #print(images) #print(names) dic = dict(zip(images, names)) for image in images: time.sleep(1) print(image, dic[image]) name = dic[image] #name = image.split('/')[-1] i = r.get(image, headers=headers).content try: with open(file_name + '/' + name + '.jpg' , 'wb') as f: f.write(i) except FileNotFoundError: continue
先导入要使用的库
import requests as r import re import os import time
然后去分析要去爬的网址: https://www.acgimage.com/shot/recommend
下图是网址的内容:
好了 url已经确定
下面去寻找headers
找到user-agent 将其内容复制到headers中
第一步就完成了
下面是代码展示
url = 'https://www.acgimage.com/shot/recommend"user-agent" : "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.162 Safari/537.36" }
然后检索要爬的图片内容
从上图就可以找到图片的位置:data-origina=后面的内容
以及图片的名字:title=后面的内容
然后用正则表达式re来检索就行了
images = re.findall('data-original="(.*" ', html) names =re.findall('title="(.*"', html)
最后将其保存就好了
i = r.get(image, headers=headers).content with open(file_name + '/' + name + '.jpg' , 'wb') as f: f.write(i)
还有就是一些细节了
比如换页
第一页网址:
https://www.acgimage.com/shot/recommend
第二页网址:https://www.acgimage.com/shot/recommend"htmlcode">
or p in range(1,34): url = 'https://www.acgimage.com/shot/recommend"htmlcode">file_name = "动漫截图" if not os.path.exists(file_name): os.mkdir(file_name)以及为了不影响爬取的网站 使用了sleep函数
虽然爬取的速度慢了一些
但是这是应遵守的道德
time.sleep(1)以上 这就是我的爬虫过程
还是希望大佬能解决我的错误之处
万分感谢
总结
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件! 如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
RTX 5090要首发 性能要翻倍!三星展示GDDR7显存
三星在GTC上展示了专为下一代游戏GPU设计的GDDR7内存。
首次推出的GDDR7内存模块密度为16GB,每个模块容量为2GB。其速度预设为32 Gbps(PAM3),但也可以降至28 Gbps,以提高产量和初始阶段的整体性能和成本效益。
据三星表示,GDDR7内存的能效将提高20%,同时工作电压仅为1.1V,低于标准的1.2V。通过采用更新的封装材料和优化的电路设计,使得在高速运行时的发热量降低,GDDR7的热阻比GDDR6降低了70%。
更新日志
- 伍佰.2002-冬之火九重天演唱会特选录音专辑2CD【滚石】【WAV+CUE】
- 李宗盛1996《李宗盛的凡人歌2CD》滚石[WAV+CUE][1G]
- 刘德华 《天意》1:1直刻黑胶LPCD[WAV+CUE][1.1G]
- 刘德丽2024《赤的疑惑HQCD》头版限量编号MQA[低速原抓WAV+CUE]
- 英雄联盟万圣节有什么皮肤返场 2024万圣节皮肤返场一览
- lol万圣节赠礼活动什么时候开始 2024万圣节活动时间介绍
- 2024全球总决赛blg是全华班吗 全球总决赛blg选手所属国家介绍
- 《LOL》S14半决赛:T1战胜GEN晋级决赛!对决BLG
- 《完蛋美女前传》白白演员抱怨:都没人玩我的线
- 玩家热议OLED屏对画面提升巨大:比PS5 Pro值得买
- PatriciaPaay-TheLadyIsAChamp(ExpandedEdition)(2024)[24Bit-96kHz]FLAC
- 尚士达.2024-莫回头【智慧小狗】【DTS-WAV分轨】
- 区瑞强-黄金时代HQCDII头版限量wav
- 孙露《终于等到你》[WAV分轨][488M]
- 张信哲《歌时代》 潮水音乐 [WAV+CUE]