圆月山庄资源网 Design By www.vgjia.com
对于动态数据的爬取,可以选择selenium
和PhantomJS
两种方式,本文选择的是PhantomJS。
网址:
https://s.taobao.com/search"htmlcode">from selenium import webdriver from scrapy.http.response.html import HtmlResponse from scrapy.http.response import Response class SeleniumSpiderMiddleware(object): def __init__(self): self.driver = webdriver.PhantomJS() def process_request(self ,request ,spider): # 当引擎从调度器中取出request进行请求发送下载器之前 # 会先执行当前的爬虫中间件 ,在中间件里面使用selenium # 请求这个request ,拿到动态网站的数据 然后将请求 # 返回给spider爬虫对象 if spider.name == 'taobao': # 使用爬虫文件的url地址 spider.driver.get(request.url) for x in range(1 ,12 ,2): i = float(x) / 11 # scrollTop 从上往下的滑动距离 js = 'document.body.scrollTop=document.body.scrollHeight * %f' % i spider.driver.execute_script(js) response = HtmlResponse(url=request.url, body=spider.driver.page_source, encoding='utf-8', request=request) # 这个地方只能返回response对象,当返回了response对象,那么可以直接跳过下载中间件,将response的值传递给引擎,引擎又传递给 spider进行解析 return response在设置中,要将
middlewares
设置打开。进入
settings.py
文件中,将DOWNLOADER_MIDDLEWARES = { 'taobaoSpider.middlewares.SeleniumSpiderMiddleware': 543, }打开。
2.第二步,爬取数据
回到spider爬虫文件中。
引入:
from selenium import webdriver自定义属性:
def __init__(self): self.driver = webdriver.PhantomJS()查找数据和分析数据:
def parse(self, response): div_info = response.xpath('//div[@class="info-cont"]') print(div_info) for div in div_info: title = div.xpath('.//div[@class="title-row "]/a/text()').extract_first('') # title = self.driver.find_element_by_class_name("title-row").text print('名称:', title) price = div.xpath('.//div[@class="sale-row row"]/div/span[2]/strong/text()').extract_first('')3.第三步,传送数据到item中:
在
item.py
文件中:name = scrapy.Field() price = scrapy.Field()回到
spider.py
爬虫文件中:引入:
from ..items import TaobaospiderItem传送数据:
#创建实例化对象。
item = TaobaospiderItem() item['name'] = title item['price'] = price yield item在设置中,打开:
ITEM_PIPELINES = { 'taobaoSpider.pipelines.TaobaospiderPipeline': 300, }4.第四步,写入数据库:
进入管道文件中。
引入
import sqlite3 写入数据库的代码如下: class TaobaospiderPipeline(object): def __init__(self): self.connect = sqlite3.connect('taobaoDB') self.cursor = self.connect.cursor() self.cursor.execute('create table if not exists taobaoTable (name text,price text)') def process_item(self, item, spider): self.cursor.execute('insert into taobaoTable (name,price)VALUES ("{}","{}")'.format(item['name'],item['price'])) self.connect.commit() return item def close_spider(self): self.cursor.close() self.connect.close()在设置中打开:
ITEM_PIPELINES = { 'taobaoSpider.pipelines.TaobaospiderPipeline': 300, }因为在上一步,我们已经将管道传送设置打开,所以这一步可以不用重复操作。
然后运行程序,打开数据库查看数据。
至此,程序结束。
下附spider爬虫文件所有代码:
# -*- coding: utf-8 -*- import scrapy from selenium import webdriver from ..items import TaobaospiderItem class TaobaoSpider(scrapy.Spider): name = 'taobao' allowed_domains = ['taobao.com'] start_urls = ['https://s.taobao.com/search"info-cont"]') print(div_info) for div in div_info: title = div.xpath('.//div[@class="title-row "]/a/text()').extract_first('') print('名称:', title) price = div.xpath('.//div[@class="sale-row row"]/div/span[2]/strong/text()').extract_first('') item = TaobaospiderItem() item['name'] = title item['price'] = price yield item def close(self,reason): print('结束了',reason) self.driver.quit()关于scrapy的中文文档:http://scrapy-chs.readthedocs.io/zh_CN/latest/faq.html
总结
以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对的支持。如果你想了解更多相关内容请查看下面相关链接
圆月山庄资源网 Design By www.vgjia.com
广告合作:本站广告合作请联系QQ:858582 申请时备注:广告合作(否则不回)
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件! 如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件! 如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
圆月山庄资源网 Design By www.vgjia.com
暂无评论...
更新日志
2024年11月06日
2024年11月06日
- 雨林唱片《赏》新曲+精选集SACD版[ISO][2.3G]
- 罗大佑与OK男女合唱团.1995-再会吧!素兰【音乐工厂】【WAV+CUE】
- 草蜢.1993-宝贝对不起(国)【宝丽金】【WAV+CUE】
- 杨培安.2009-抒·情(EP)【擎天娱乐】【WAV+CUE】
- 周慧敏《EndlessDream》[WAV+CUE]
- 彭芳《纯色角3》2007[WAV+CUE]
- 江志丰2008-今生为你[豪记][WAV+CUE]
- 罗大佑1994《恋曲2000》音乐工厂[WAV+CUE][1G]
- 群星《一首歌一个故事》赵英俊某些作品重唱企划[FLAC分轨][1G]
- 群星《网易云英文歌曲播放量TOP100》[MP3][1G]
- 方大同.2024-梦想家TheDreamer【赋音乐】【FLAC分轨】
- 李慧珍.2007-爱死了【华谊兄弟】【WAV+CUE】
- 王大文.2019-国际太空站【环球】【FLAC分轨】
- 群星《2022超好听的十倍音质网络歌曲(163)》U盘音乐[WAV分轨][1.1G]
- 童丽《啼笑姻缘》头版限量编号24K金碟[低速原抓WAV+CUE][1.1G]