圆月山庄资源网 Design By www.vgjia.com
本文实例讲述了Python实现的爬取百度贴吧图片功能。分享给大家供大家参考,具体如下:
#coding:utf-8 import requests import urllib2 import urllib ``` from lxml import etree class Tieba: def __init__(self): self.tiebaName = raw_input("请输入需要爬取的贴吧:") self.beginPage = int(raw_input("请输入爬取的起始页:")) self.endPage = int(raw_input("请输入爬取的结束页:")) self.baseURL = "http://tieba.baidu.com" #self.headers = {"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.86 Safari/537.36"} self.headers = {"User-Agent" : "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1 Trident/5.0;"} def startWork(self): """ 发送贴吧每一页的url请求 """ for page in range(self.beginPage, self.endPage + 1): pn = (page - 1) * 50 keyword = {"kw" : self.tiebaName, "pn" : pn} kw = urllib.urlencode(keyword) url = self.baseURL + "/f" + kw #print url html = self.loadRequest(url) self.loadPage(html) def loadRequest(self, url): """ 发送请求,返回响应 url: 发送请求的url地址 """ request = urllib2.Request(url, headers = self.headers) #request = urllib2.Request(url) response = urllib2.urlopen(request) return response.read() def loadPage(self, html): """ 提取每个帖子的url,并发送请求,获取响应 html: 贴吧每一页的html """ content = etree.HTML(html) print '------' print content # xpath 返回的所有匹配成功后的结果的列表 #pagelink_list = content.xpath("//div[@class='threadlist_lz clearfix']/div/a[@class='j_th_tit']/@href") pagelink_list = content.xpath("//div[@class='col2_right j_threadlist_li_right']//div/a/@href") pagelink_list = content.xpath("//div[@class='t_con cleafix']//div/a/@href") for link in pagelink_list: print link self.loadImage(self.loadRequest(self.baseURL + link)) def loadImage(self, html): """ 提取帖子里用户发送的图片的url地址 html: 每个帖子的html """ content = etree.HTML(html) imagelink_list = content.xpath("//div[@class='p_content ']//img[@class='BDE_Image']/@src") for link in imagelink_list: self.writeImage(self.loadRequest(link), link[-10:]) def writeImage(self, data, filename): """ 将图片的响应数据,写入到本地磁盘里 data: 图片的响应数据 filename: 文件名(图片url的后10位) """ print "正在保存图片...%s" % filename with open(filename, "wb") as f: f.write(data) if __name__ == "__main__": tieba = Tieba() tieba.startWork()
更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》
希望本文所述对大家Python程序设计有所帮助。
圆月山庄资源网 Design By www.vgjia.com
广告合作:本站广告合作请联系QQ:858582 申请时备注:广告合作(否则不回)
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件! 如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件! 如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
圆月山庄资源网 Design By www.vgjia.com
暂无评论...
更新日志
2024年11月06日
2024年11月06日
- 雨林唱片《赏》新曲+精选集SACD版[ISO][2.3G]
- 罗大佑与OK男女合唱团.1995-再会吧!素兰【音乐工厂】【WAV+CUE】
- 草蜢.1993-宝贝对不起(国)【宝丽金】【WAV+CUE】
- 杨培安.2009-抒·情(EP)【擎天娱乐】【WAV+CUE】
- 周慧敏《EndlessDream》[WAV+CUE]
- 彭芳《纯色角3》2007[WAV+CUE]
- 江志丰2008-今生为你[豪记][WAV+CUE]
- 罗大佑1994《恋曲2000》音乐工厂[WAV+CUE][1G]
- 群星《一首歌一个故事》赵英俊某些作品重唱企划[FLAC分轨][1G]
- 群星《网易云英文歌曲播放量TOP100》[MP3][1G]
- 方大同.2024-梦想家TheDreamer【赋音乐】【FLAC分轨】
- 李慧珍.2007-爱死了【华谊兄弟】【WAV+CUE】
- 王大文.2019-国际太空站【环球】【FLAC分轨】
- 群星《2022超好听的十倍音质网络歌曲(163)》U盘音乐[WAV分轨][1.1G]
- 童丽《啼笑姻缘》头版限量编号24K金碟[低速原抓WAV+CUE][1.1G]