1. 实例描述
通过爬虫获取网页的信息时,有时需要登录网页后才可以获取网页中的可用数据,例如获取 GitHub
网页中的注册号码时,就需要先登录账号才能在登录后的页面中看到该信息,如下图所示。那么该如何实现模拟登录的功能呢?本文实现将通过爬虫实现 GitHub
网页的模拟登录。
2. 代码实现
在实现 GitHub
网页的模拟登录时,首先需要查看提交登录请求时都要哪些请求参数,然后获取登录请求的所有参数,再发送登录请求。如果登录成功的情况下获取页面中的注册号码信息即可。具体步骤如下:
(1) 点击 此处 打开 GitHub
的登录页面,然后输入账号与密码,如下图所示。
(2) 用 F12
或者 鼠标右键单击网页选择 检查
打开浏览器的开发者工具,选择获取网络请求过程,然后单击登录页面中的 Sign in
按钮,此时开发者工具中将显示 GitHub
网页的登录请求过程,重点查找名称为 session
的网络请求。如下图所示。
(3) 单击名称为 session
的网络请求,然后在 Headers
请求信息中主要查看 Request Headers
与 Form Data
中的各种信息,其中红框内为重要参数与数据。如下图所示。
说明:Host
为主页面地址,Referer
为当前请求的来源地址。User-Agent
为浏览器的头部信息。Form Data
中的所有信息都是登录请求的所用参数,其中动态参数为重要参数,authenticity_token
为加密字符串,login
为登录的账号,password
为密码,其它参数为静态参数。由于动态参数只有 authenticity_token
、login
以及password
,而用户名与密码只需要将动态字符串填写对应的位置即可,所以接下来需要获取 authenticity_token
参数所对应的加密字符串。
(4) 在浏览器中退出所登录的 GitHub
账号,返回 GitHub
的登录页面,打开浏览器开发者工具,查看网页的 html
代码,然后在代码中搜索 authenticity_token
关键词,标签内 value
所对应的值为 authenticity_token
参数的加密字符串。如下图所示。
(5) 实现爬虫代码,首先导入所需模块,然后创建头部信息,再通过 Session
会话对象发送网络请求获取 authenticity_token
信息,最后通过所有的登陆请求参数实现 GitHub
网页的登陆请求并提取注册号码。具体代码如下:
# -*- coding: utf-8 -*- # @Time : 2020/5/10 23:25 # @Author : 我就是任性-Amo # @FileName: 77.通过爬虫实现GitHub网页的模拟登录.py # @Software: PyCharm # @Blog :https://blog.csdn.net/xw1680 import requests # 导入网络请求模块 from lxml import etree # 导入数据解析模块 都是第三方模块需要安装 # pip install requests/lxml如果太慢 可以加上镜像服务器 或者在Pycharm中使用图形化界面进行安装 class GitHubLogin(object): def __init__(self, username, password): # 构造头部信息 self.headers = { "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) " "AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36", "Host": "github.com", "Referer": "https://github.com/login" } self.login_url = "https://github.com/login" # 登录页面地址 self.post_url = "https://github.com/session" # 实现登录的请求地址 self.session = requests.Session() # 创建Session会话对象 self.user_name = username # 用户名 self.password = password # 密码 # 获取authenticity_token信息 def get_token(self): # 发送登录页面的网络请求 response = self.session.get(self.login_url, headers=self.headers) if response.status_code == 200: # 判断请求是否成功 html = etree.HTML(response.text) # 解析html # 提取authenticity_token信息 token = html.xpath("//div[@id='login']/form/input[1]/@value")[0] # print(token) 测试是否能够获取到token return token # 返回信息 # 实现登录 def login(self): # 请求参数 post_data = { "commit": "Sign in", "authenticity_token": self.get_token(), "login": self.user_name, "password": self.password, "webauthn - support": "supported" } # 发送登录请求 response = self.session.post(self.post_url, headers=self.headers, data=post_data) if response.status_code == 200: # 判断请求是否成功 html = etree.HTML(response.text) # 解析html # 获取注册号码 register_number = html.xpath("//div[contains(@class,'Header-item')][last()]//strong")[0] print(f"注册号码为: {register_number.text}") else: print("登录失败") if __name__ == '__main__': user_name = input("请输入您的用户名:") # 获取输入的用户名 password = input("请输入您的密码:") # 获取输入的密码 login = GitHubLogin(user_name, password) # 创建登录类对象并传递输入的用户名与密码 login.login()
执行以上代码,输入用户名与密码,即可显示获取的注册号码。如下图所示:
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件! 如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
RTX 5090要首发 性能要翻倍!三星展示GDDR7显存
三星在GTC上展示了专为下一代游戏GPU设计的GDDR7内存。
首次推出的GDDR7内存模块密度为16GB,每个模块容量为2GB。其速度预设为32 Gbps(PAM3),但也可以降至28 Gbps,以提高产量和初始阶段的整体性能和成本效益。
据三星表示,GDDR7内存的能效将提高20%,同时工作电压仅为1.1V,低于标准的1.2V。通过采用更新的封装材料和优化的电路设计,使得在高速运行时的发热量降低,GDDR7的热阻比GDDR6降低了70%。
更新日志
- 《暗喻幻想》顺风耳作用介绍
- 崔健1985-梦中的倾诉[再版][WAV+CUE]
- 黄子馨《追星Xin的恋人们2》HQ头版限量编号[WAV+CUE]
- 孟庭苇《情人的眼泪》开盘母带[低速原抓WAV+CUE]
- 孙露《谁为我停留HQCD》[低速原抓WAV+CUE][1.1G]
- 孙悦《时光音乐会》纯银CD[低速原抓WAV+CUE][1.1G]
- 任然《渐晚》[FLAC/分轨][72.32MB]
- 英雄联盟新英雄安蓓萨上线了吗 新英雄安蓓萨技能介绍
- 魔兽世界奥杜尔竞速赛什么时候开启 奥杜尔竞速赛开启时间介绍
- 无畏契约CGRS准星代码多少 CGRS准星代码分享一览
- 张靓颖.2012-倾听【少城时代】【WAV+CUE】
- 游鸿明.1999-五月的雪【大宇国际】【WAV+CUE】
- 曹方.2005-遇见我【钛友文化】【WAV+CUE】
- Unity6引擎上线:稳定性提升、CPU性能最高提升4倍
- 人皇Sky今日举行婚礼!电竞传奇步入新篇章