使用Python爬虫爬取小红书完完整整的全过程

脚本专栏 2025/1/26 佚名

3 2 1

圆月山庄资源网 Design By www.vgjia.com

前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。

以下文章来源于Python进击者，作者kuls

Python爬虫、数据分析、网站开发等案例教程视频免费在线观看

https://space.bilibili.com/523606542

小红书

首先，我们打开之前大家配置好的charles

我们来简单抓包一下小红书小程序(注意这里是小程序，不是app)

不选择app的原因是，小红书的App有点难度，参照网上的一些思路，还是选择了小程序

1、通过charles抓包对小程序进行分析

我们打开小红书小程序，随意搜索一个关键词

按照我的路径，你可以发现列表中的数据已经被我们抓到了。

但是你以为这就结束了？

不不不

通过这次抓包，我们知道了可以通过这个api接口获取到数据

但是当我们把爬虫都写好时，我们会发现headers里面有两个很难处理的参数

"authorization"和"x-sign"

这两个玩意，一直在变化，而且不知道从何获取。

所以

2、使用mitmproxy来进行抓包

其实通过charles抓包，整体的抓取思路我们已经清晰

就是获取到"authorization"和"x-sign"两个参数，然后对url进行get请求

这里用到的mitmproxy，其实和charles差不多，都是抓包工具

但是mitmproxy能够跟Python一起执行

这就舒服很多啊

简单给大家举例子

 def request(flow):
   print(flow.request.headers)

在mitmproxy中提供这样的方法给我们，我们可以通过request对象截取到request headers中的url、cookies、host、method、port、scheme等属性

这不正是我们想要的吗？

我们直接截取"authorization"和"x-sign" 这两个参数

然后往headers里填入

整个就完成了。

以上是我们整个的爬取思路，下面给大家讲解一下代码怎么写

其实代码写起来并不难

首先，我们必须截取到搜索api的流，这样我们才能够对其进行获取信息

if 'https://www.xiaohongshu.com/fe_api/burdock/weixin/v2/search/notes' in flow.request.url:

我们通过判断flow的request里面是否存在搜索api的url

来确定我们需要抓取的请求

authorization=re.findall("authorization',.*",str(flow.request.headers))[0]
x_sign=re.findall("x-sign',.*",str(flow.request.headers))[0]
url=flow.request.url

通过上述代码，我们就能够把最关键的三个参数拿到手了，接下来就是一些普通的解析json了。

最终，我们可以拿到自己想要的数据了

如果你想要获取到单篇数据，可以拿到文章id后抓取

"https://www.xiaohongshu.com/discovery/item/" + str(id)

这个页面headers里需要带有cookie，你随意访问一个网站都可以拿到cookie，目前看来好像是固定的

最后，可以把数据放入csv

总结

其实小红书爬虫的抓取并不是特别的难，关键在于思路以及使用的方法是什么。

Python爬取小红书,Python爬虫小红书

标签：

Python爬取小红书,Python爬虫小红书

圆月山庄资源网 Design By www.vgjia.com

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站文章均来自网站采集或用户投稿，网站不提供任何软件下载或自行开发的软件！如有用户或公司发现本站内容信息存在侵权行为，请邮件告知！ 858582#qq.com

圆月山庄资源网 Design By www.vgjia.com

评论“使用Python爬虫爬取小红书完完整整的全过程”

暂无评论...

《魔兽世界》大逃杀！60人新游玩模式《强袭风暴》3月21日上线

暴雪近日发布了《魔兽世界》10.2.6 更新内容，新游玩模式《强袭风暴》即将于3月21 日在亚服上线，届时玩家将前往阿拉希高地展开一场 60 人大逃杀对战。

艾泽拉斯的冒险者已经征服了艾泽拉斯的大地及遥远的彼岸。他们在对抗世界上最致命的敌人时展现出过人的手腕，并且成功阻止终结宇宙等级的威胁。当他们在为即将于《魔兽世界》资料片《地心之战》中来袭的萨拉塔斯势力做战斗准备时，他们还需要在熟悉的阿拉希高地面对一个全新的敌人──那就是彼此。在《巨龙崛起》10.2.6 更新的《强袭风暴》中，玩家将会进入一个全新的海盗主题大逃杀式限时活动，其中包含极高的风险和史诗级的奖励。
《强袭风暴》不是普通的战场，作为一个独立于主游戏之外的活动，玩家可以用大逃杀的风格来体验《魔兽世界》，不分职业、不分装备（除了你在赛局中捡到的），光是技巧和战略的强弱之分就能决定出谁才是能坚持到最后的赢家。本次活动将会开放单人和双人模式，玩家在加入海盗主题的预赛大厅区域前，可以从强袭风暴角色画面新增好友。游玩游戏将可以累计名望轨迹，《巨龙崛起》和《魔兽世界：巫妖王之怒经典版》的玩家都可以获得奖励。

更新日志

2025年01月26日

使用Python爬虫爬取小红书完完整整的全过程

前言

小红书

总结

Python爬取小红书,Python爬虫小红书

python-jwt用户认证食用教学的实现方法

selenium携带cookies模拟登陆CSDN的实现

评论“使用Python爬虫爬取小红书完完整整的全过程”

《魔兽世界》大逃杀！60人新游玩模式《强袭风暴》3月21日上线

更新日志

友情链接