圆月山庄资源网 Design By www.vgjia.com
这次主要是爬了京东上一双鞋的相关评论:将数据保存到excel中并可视化展示相应的信息
主要的python代码如下:
文件1
#将excel中的数据进行读取分析 import openpyxl import matplotlib.pyplot as pit #数据统计用的 wk=openpyxl.load_workbook('销售数据.xlsx') sheet=wk.active #获取活动表 #获取最大行数和最大列数 rows=sheet.max_row cols=sheet.max_column lst=[] #用于存储鞋子码数 for i in range (2,rows+1): size=sheet.cell(i,3).value lst.append(size) #以上已经将excel中的数据读取完毕 #一下操作就你行统计不同码数的数量 '''python中有一个数据结构叫做字典,使用鞋码做key,使用销售数量做value''' dic_size={} for item in lst: dic_size[item]=0 for item in lst: for size in dic_size: #遍历字典 if item==size: dic_size[size]+=1 break for item in dic_size: print(item,dic_size[item]) #弄成百分比的形式 lst_total=[] for item in dic_size: lst_total.append([item,dic_size[item],dic_size[item]/160*1.0]) #接下来进行数据的可视化(进行画饼操作) labels=[item[0] +'码'for item in lst_total] #使用列表生成式,得到饼图的标签 fraces=[item[2] for item in lst_total] #饼图中的数据源 pit.rcParams['font.family']=['SimHei'] #单独的表格乱码的处理方式 pit.pie(x=fraces,labels=labels,autopct='%1.1f%%') #pit.show()进行结果的图片的展示 pit.savefig('图.jpg')
文件2
#所涉及到的是requests和openpyxl数据的存储和数据的清洗以及统计然后就是matplotlib进行数据的可视化 #静态数据点击element中点击发现在html中,服务器已经渲染好的内容,直接发给浏览器,浏览器解释执行, #动态数据:如果点击下一页。我们的地址栏(加后缀但是前面的地址栏没变也算)(也可以点击2和3页)没有发生任何变化说明是动态数据,说明我们的数据是后来被渲染到html中的。他的数据根本不在html中的。 #动态查看network然后用的url是network里面的headers #安装第三方模块输入cmd之后pip install 加名字例如requests import requests import re import time import json import openpyxl #用于操作 excel文件的 headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36'}#创建头部信息 def get_comments(productId,page): url = "https://club.jd.com/comment/productPageComments.action".format(productId,page) resp = requests.get(url, headers=headers) s=resp.text.replace('fetchJSON_comment98(','')#进行替换操作。获取到所需要的相应的json,也就是去掉前后没用的东西 s=s.replace(');','') json_data=json.loads(s)#进行数据json转换 return json_data #获取最大页数 def get_max_page(productId): dis_data=get_comments(productId,0)#调用刚才写的函数进行向服务器的访问请求,获取字典数据 return dis_data['maxPage']#获取他的最大页数。每一页都有最大页数 #进行数据提取 def get_info(productId): max_page=get_max_page(productId) lst=[]#用于存储提取到的商品数据 for page in range(1,max_page+1): #获取没页的商品评论 comments=get_comments(productId,page) comm_list=comments['comments']#根据comnents获取到评论的列表(每页有10条评论) #遍历评论列表,获取其中的相应的数据 for item in comm_list: #每条评论分别是一字典。在继续通过key来获取值 content=item['content'] color=item['productColor'] size=item['productSize'] lst.append([content,color,size])#将每条评论添加到列表当中 time.sleep(3)#防止被京东封ip进行一个时间延迟。防止访问次数太频繁 save(lst) def save(lst): #把爬取到的数据进行存储,保存到excel中 wk=openpyxl.Workbook()#用于创建工作簿对象 sheet=wk.active #获取活动表(一个工作簿有三个表) #遍历列表将数据添加到excel中。列表中的一条数据在表中是一行 biaotou='评论','颜色','大小' sheet.append(biaotou) for item in lst: sheet.append(item) #将excel保存到磁盘上 wk.save('销售数据.xlsx') if __name__=='__main__': productId='66749071789' get_info(productId) print("ok")
实现的效果如下:
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持。
标签:
Python,爬取数据,可视化
圆月山庄资源网 Design By www.vgjia.com
广告合作:本站广告合作请联系QQ:858582 申请时备注:广告合作(否则不回)
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件! 如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件! 如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
圆月山庄资源网 Design By www.vgjia.com
暂无评论...
RTX 5090要首发 性能要翻倍!三星展示GDDR7显存
三星在GTC上展示了专为下一代游戏GPU设计的GDDR7内存。
首次推出的GDDR7内存模块密度为16GB,每个模块容量为2GB。其速度预设为32 Gbps(PAM3),但也可以降至28 Gbps,以提高产量和初始阶段的整体性能和成本效益。
据三星表示,GDDR7内存的能效将提高20%,同时工作电压仅为1.1V,低于标准的1.2V。通过采用更新的封装材料和优化的电路设计,使得在高速运行时的发热量降低,GDDR7的热阻比GDDR6降低了70%。
更新日志
2024年11月02日
2024年11月02日
- 《暗喻幻想》顺风耳作用介绍
- 崔健1985-梦中的倾诉[再版][WAV+CUE]
- 黄子馨《追星Xin的恋人们2》HQ头版限量编号[WAV+CUE]
- 孟庭苇《情人的眼泪》开盘母带[低速原抓WAV+CUE]
- 孙露《谁为我停留HQCD》[低速原抓WAV+CUE][1.1G]
- 孙悦《时光音乐会》纯银CD[低速原抓WAV+CUE][1.1G]
- 任然《渐晚》[FLAC/分轨][72.32MB]
- 英雄联盟新英雄安蓓萨上线了吗 新英雄安蓓萨技能介绍
- 魔兽世界奥杜尔竞速赛什么时候开启 奥杜尔竞速赛开启时间介绍
- 无畏契约CGRS准星代码多少 CGRS准星代码分享一览
- 张靓颖.2012-倾听【少城时代】【WAV+CUE】
- 游鸿明.1999-五月的雪【大宇国际】【WAV+CUE】
- 曹方.2005-遇见我【钛友文化】【WAV+CUE】
- Unity6引擎上线:稳定性提升、CPU性能最高提升4倍
- 人皇Sky今日举行婚礼!电竞传奇步入新篇章