做电商时,消费者对商品的评论是很重要的,但是不会写代码怎么办?这里有个Chrome插件可以做到简单的数据爬取,一句代码都不用写。下面给大家展示部分抓取后的数据:
可以看到,抓取的地址,评论人,评论内容,时间,产品颜色都已经抓取下来了。那么,爬取这些数据需要哪些工具呢?就两个:
1. Chrome浏览器;
2. 插件:Web Scraper
插件下载地址:https://chromecj.com/productivity/2018-05/942.html
最后,如果你想自己动手抓取一下,这里是这次抓取的详细过程:
1. 首先,复制如下的代码,对,你不需要写代码,但是为了便于上手,复制代码还是需要的,后续可以自己定制和选择,不需要写代码。
{ "_id": "jdreview", "startUrl": [ "https://item.jd.com/100000680365.html#comment" ], "selectors": [ { "id": "user", "type": "SelectorText", "selector": "div.user-info", "parentSelectors": [ "main" ], "multiple": false, "regex": "", "delay": 0 }, { "id": "comments", "type": "SelectorText", "selector": "div.comment-column > p.comment-con", "parentSelectors": [ "main" ], "multiple": false, "regex": "", "delay": 0 }, { "id": "time", "type": "SelectorText", "selector": "div.comment-message:nth-of-type(5) span:nth-of-type(4), div.order-info span:nth-of-type(4)", "parentSelectors": [ "main" ], "multiple": false, "regex": "", "delay": "0" }, { "id": "color", "type": "SelectorText", "selector": "div.order-info span:nth-of-type(1)", "parentSelectors": [ "main" ], "multiple": false, "regex": "", "delay": 0 }, { "id": "main", "type": "SelectorElementClick", "selector": "div.comment-item", "parentSelectors": [ "_root" ], "multiple": true, "delay": "10000", "clickElementSelector": "div.com-table-footer a.ui-pager-next", "clickType": "clickMore", "discardInitialElements": false, "clickElementUniquenessType": "uniqueHTMLText" } ] }
2. 然后打开chrome浏览器,在任意页面同时按下Ctrl+Shift+i,在弹出的窗口中找到Web Scraper,如下:
3. 如下
4. 如图,粘贴上述的代码:
5. 如图,如果需要定制网址,注意替代一下,网址后面的#comment是直达评论的链接,不能去掉:
6. 如图:
7. 如图:
8. 如图,点击Scrape后,会自动运行打开需要抓取得页面,不要关闭窗口,静静等待完成,完成后右下方会提示完成,一般1000条以内的评论不会有问题:
9. 最后,点击下载到电脑,数据保存好。
使用这个工具的好处是:
1. 不需要编程;
2. 京东的评论基本可以通用此脚本,修改对应的url即可;
3. 如果需要爬取的评论不到1000条,这个工具会非常称手,所有的数据完全自动下载;
使用的注意点:
1. 抓取过一次的数据会有记录,立刻再次抓取将不会保存,建议关闭浏览器重新打开后再试;
2. 抓取数量:1000条以内没有问题,可能是京东按照IP直接阻止了更多的爬取;
如果你的英语水平不错,可以尝试阅读官方文档,进一步学习和定制自己的爬虫。
官方教程:https://www.webscraper.io/documentation
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持。
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件! 如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
RTX 5090要首发 性能要翻倍!三星展示GDDR7显存
三星在GTC上展示了专为下一代游戏GPU设计的GDDR7内存。
首次推出的GDDR7内存模块密度为16GB,每个模块容量为2GB。其速度预设为32 Gbps(PAM3),但也可以降至28 Gbps,以提高产量和初始阶段的整体性能和成本效益。
据三星表示,GDDR7内存的能效将提高20%,同时工作电压仅为1.1V,低于标准的1.2V。通过采用更新的封装材料和优化的电路设计,使得在高速运行时的发热量降低,GDDR7的热阻比GDDR6降低了70%。
更新日志
- 魔兽世界奥卡兹岛地牢入口在哪里 奥卡兹岛地牢入口位置一览
- 和文军-丽江礼物[2007]FLAC
- 陈随意2012-今生的伴[豪记][WAV+CUE]
- 罗百吉.2018-我们都一样【乾坤唱片】【WAV+CUE】
- 《怪物猎人:荒野》不加中配请愿书引热议:跪久站不起来了?
- 《龙腾世纪4》IGN 9分!殿堂级RPG作品
- Twitch新规禁止皮套外露敏感部位 主播直接“真身”出镜
- 木吉他.1994-木吉他作品全集【滚石】【WAV+CUE】
- 莫华伦.2022-一起走过的日子【京文】【WAV+CUE】
- 曾淑勤.1989-装在袋子里的回忆【点将】【WAV+CUE】
- 滚石香港黄金十年系列《赵传精选》首版[WAV+CUE][1.1G]
- 雷婷《乡村情歌·清新民谣》1:1母盘直刻[低速原抓WAV+CUE][1.1G]
- 群星 《DJ夜色魅影HQⅡ》天艺唱片[WAV+CUE][1.1G]
- 群星《烧透你的耳朵2》DXD金佰利 [低速原抓WAV+CUE][1.3G]
- 群星《难忘的回忆精选4》宝丽金2CD[WAV+CUE][1.4G]