圆月山庄资源网 Design By www.vgjia.com
按F12打开开发者工具抓包,可以定位到招聘信息的接口
在请求中可以获取到接口的url和formdata,表单中pn
为请求的页数,kd
为关请求职位的关键字
使用python构建post请求
data = { 'first': 'true', 'pn': '1', 'kd': 'python' } headers = { 'referer': 'https://www.lagou.com/jobs/list_python/p-city_0"https://www.lagou.com/jobs/positionAjax.json", data=data,headers=headers) print(res.text)
发现没有从接口获取到数据
换了个网络后接口还是会返回操作频繁的错误信息,仔细检查后发现这个接口需要一个动态的cookies不然会一值返回错误频繁
data = { 'first': 'true', 'pn': '1', 'kd': 'python' } #头部中必须有user-agent和referer不然不会返回cookies headers = { 'referer': 'https://www.lagou.com/jobs/list_python/p-city_0"https://www.lagou.com/jobs/list_python/p-city_0",headers=headers) #再post请求中传入cookies r2 = requests.post("https://www.lagou.com/jobs/positionAjax.json", data=data,headers=headers, cookies=r2.cookies) print(r2.text)
注意!每请求十次接口cookies也会刷新一次,下面贴上完整爬虫代码
import json import logging import requests #获取cookie def getCookie(): res = requests.get("https://www.lagou.com/jobs/list_python/p-city_0", headers=headers) return res.cookies #获取json数据 def getPage(i, cookies, kw): data = { 'first': 'true', 'pn': i, 'kd': kw } res = requests.post("https://www.lagou.com/jobs/positionAjax.json", data=data, headers=headers, cookies=cookies) return json.loads(res.text) #合并列表 def reduceList(l): text = "" for i in l: text += i + " " return text.strip() #提取字段并保存到文件中 def saveInCsv(f, data): js = data["content"]["positionResult"]["result"] for node in js: # 对空值进行处理 district = node["district"] if district != None: district = "-" + district else: district = "" f.write( node["positionName"] + "·" + node["city"] + district + "·" + node[ "salary"] + "·" + node["workYear"] + "·" + node["education"] + "·" + reduceList(node["skillLables"]) + "·" + node["companyShortName"] + "·" + node["companySize"] + "·" + node["positionAdvantage"] + "\n") if __name__ == '__main__': #定义头部 headers = { 'referer': 'https://www.lagou.com/jobs/list_python/p-city_0"file.csv", "w", encoding="utf-8") as f: for i in range(1, 31): #每十个请求重新获取cookie if (i % 10 == 0): cookies = getCookie() #解析字段并存储 data = getPage(i, cookies, "python") saveInCsv(f, data)
圆月山庄资源网 Design By www.vgjia.com
广告合作:本站广告合作请联系QQ:858582 申请时备注:广告合作(否则不回)
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件! 如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件! 如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
圆月山庄资源网 Design By www.vgjia.com
暂无评论...
更新日志
2024年11月01日
2024年11月01日
- 孟庭苇《情人的眼泪》开盘母带[低速原抓WAV+CUE]
- 孙露《谁为我停留HQCD》[低速原抓WAV+CUE][1.1G]
- 孙悦《时光音乐会》纯银CD[低速原抓WAV+CUE][1.1G]
- 任然《渐晚》[FLAC/分轨][72.32MB]
- 英雄联盟新英雄安蓓萨上线了吗 新英雄安蓓萨技能介绍
- 魔兽世界奥杜尔竞速赛什么时候开启 奥杜尔竞速赛开启时间介绍
- 无畏契约CGRS准星代码多少 CGRS准星代码分享一览
- 张靓颖.2012-倾听【少城时代】【WAV+CUE】
- 游鸿明.1999-五月的雪【大宇国际】【WAV+CUE】
- 曹方.2005-遇见我【钛友文化】【WAV+CUE】
- Unity6引擎上线:稳定性提升、CPU性能最高提升4倍
- 人皇Sky今日举行婚礼!电竞传奇步入新篇章
- 国风与电竞的奇妙邂逅 “电竞北京2024·国风电竞奇妙夜”引领文化新潮流
- 群星《辉煌滚石30男人篇》开盘母带[低速原抓WAV+CUE]
- 群星《藏迷情歌》紫银合金AQCD[低速原抓WAV+CUE]