圆月山庄资源网 Design By www.vgjia.com
爬虫库
使用简单的requests库,这是一个阻塞的库,速度比较慢。
解析使用XPATH表达式
总体采用类的形式
多线程
使用concurrent.future并发模块,建立线程池,把future对象扔进去执行即可实现并发爬取效果
数据存储
使用Python ORM sqlalchemy保存到数据库,也可以使用自带的csv模块存在CSV中。
API接口
因为API接口存在数据保护情况,一个电影的每一个分类只能抓取前25页,全部评论、好评、中评、差评所有分类能爬100页,每页有20个数据,即最多为两千条数据。
因为时效性原因,不保证代码能爬到数据,只是给大家一个参考思路,上代码:
from datetime import datetime import random import csv from concurrent.futures import ThreadPoolExecutor, as_completed from lxml import etree import pymysql import requests from models import create_session, Comments #随机UA USERAGENT = [ 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1', 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36', 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0', 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50', 'Opera/9.80 (Windows NT 6.1; U; zh-cn) Presto/2.9.168 Version/11.50', 'Mozilla/5.0 (Windows; U; Windows NT 6.1; ) AppleWebKit/534.12 (KHTML, like Gecko) Maxthon/3.0 Safari/534.12' ] class CommentFetcher: headers = {'User-Agent': ''} cookie = '' cookies = {'cookie': cookie} # cookie为登录后的cookie,需要自行复制 base_node = '//div[@class="comment-item"]' def __init__(self, movie_id, start, type=''): ''' :type: 全部评论:'', 好评:h 中评:m 差评:l :movie_id: 影片的ID号 :start: 开始的记录数,0-480 ''' self.movie_id = movie_id self.start = start self.type = type self.url = 'https://movie.douban.com/subject/{id}/comments"avatar"]/a/@title') #用户连接 self.user_center = dom.xpath(self.base_node + '/div[@class="avatar"]/a/@href') #点赞数 self.vote = dom.xpath(self.base_node + '//span[@class="votes"]/text()') #星级 self.star = dom.xpath(self.base_node + '//span[contains(@class,"rating")]/@title') #发表时间 self.time = dom.xpath(self.base_node + '//span[@class="comment-time "]/@title') #评论内容 所有span标签class名为short的节点文本 self.content = dom.xpath(self.base_node + '//span[@class="short"]/text()') #保存到数据库 def save_to_database(self): self._parse() for i in range(len(self.id)): try: comment = Comments( id=int(self.id[i]), username=self.username[i], user_center=self.user_center[i], vote=int(self.vote[i]), star=self.star[i], time=datetime.strptime(self.time[i], '%Y-%m-%d %H:%M:%S'), content=self.content[i] ) self.session.add(comment) self.session.commit() return 'finish' except pymysql.err.IntegrityError as e: print('数据重复,不做任何处理') except Exception as e: #数据添加错误,回滚 self.session.rollback() finally: #关闭数据库连接 self.session.close() #保存到csv def save_to_csv(self): self._parse() f = open('comment.csv', 'w', encoding='utf-8') csv_in = csv.writer(f, dialect='excel') for i in range(len(self.id)): csv_in.writerow([ int(self.id[i]), self.username[i], self.user_center[i], int(self.vote[i]), self.time[i], self.content[i] ]) f.close() if __name__ == '__main__': with ThreadPoolExecutor(max_workers=4) as executor: futures = [] for i in ['', 'h', 'm', 'l']: for j in range(25): fetcher = CommentFetcher(movie_id=26266893, start=j * 20, type=i) futures.append(executor.submit(fetcher.save_to_csv)) for f in as_completed(futures): try: res = f.done() if res: ret_data = f.result() if ret_data == 'finish': print('{} 成功保存数据'.format(str(f))) except Exception as e: f.cancel()
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持。
圆月山庄资源网 Design By www.vgjia.com
广告合作:本站广告合作请联系QQ:858582 申请时备注:广告合作(否则不回)
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件! 如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件! 如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
圆月山庄资源网 Design By www.vgjia.com
暂无评论...
稳了!魔兽国服回归的3条重磅消息!官宣时间再确认!
昨天有一位朋友在大神群里分享,自己亚服账号被封号之后居然弹出了国服的封号信息对话框。
这里面让他访问的是一个国服的战网网址,com.cn和后面的zh都非常明白地表明这就是国服战网。
而他在复制这个网址并且进行登录之后,确实是网易的网址,也就是我们熟悉的停服之后国服发布的暴雪游戏产品运营到期开放退款的说明。这是一件比较奇怪的事情,因为以前都没有出现这样的情况,现在突然提示跳转到国服战网的网址,是不是说明了简体中文客户端已经开始进行更新了呢?
更新日志
2024年11月05日
2024年11月05日
- 雨林唱片《赏》新曲+精选集SACD版[ISO][2.3G]
- 罗大佑与OK男女合唱团.1995-再会吧!素兰【音乐工厂】【WAV+CUE】
- 草蜢.1993-宝贝对不起(国)【宝丽金】【WAV+CUE】
- 杨培安.2009-抒·情(EP)【擎天娱乐】【WAV+CUE】
- 周慧敏《EndlessDream》[WAV+CUE]
- 彭芳《纯色角3》2007[WAV+CUE]
- 江志丰2008-今生为你[豪记][WAV+CUE]
- 罗大佑1994《恋曲2000》音乐工厂[WAV+CUE][1G]
- 群星《一首歌一个故事》赵英俊某些作品重唱企划[FLAC分轨][1G]
- 群星《网易云英文歌曲播放量TOP100》[MP3][1G]
- 方大同.2024-梦想家TheDreamer【赋音乐】【FLAC分轨】
- 李慧珍.2007-爱死了【华谊兄弟】【WAV+CUE】
- 王大文.2019-国际太空站【环球】【FLAC分轨】
- 群星《2022超好听的十倍音质网络歌曲(163)》U盘音乐[WAV分轨][1.1G]
- 童丽《啼笑姻缘》头版限量编号24K金碟[低速原抓WAV+CUE][1.1G]