圆月山庄资源网 Design By www.vgjia.com
python2.7,下面是跑在window上的,稍作修改就可以跑在linux上。
实测win7和raspbian均可,且raspbian可以直接调用omxplayer命令进行播放。
利用百度的语音合成api进行语音播报,抓取的页面是北大未名BBS的十大。
先放抓取模块BDWM.py的代码:
# -*- coding: utf-8 -*- import urllib2 import HTMLParser class MyParser(HTMLParser.HTMLParser): def __init__(self): HTMLParser.HTMLParser.__init__(self) self.nowtag = '' self.count = 0 self.flag = False self.isLink = False self.count2 = 0 self.dict = {} self.temp = '' def handle_starttag(self, tag, attrs): if tag == 'span': for key, value in attrs: if key == 'class' and ('Rank1AmongHisBoard' in value): self.count += 1 if self.count < 11: self.flag = True if tag == 'a': self.isLink = True else: self.isLink = False def handle_data(self, data): if self.flag and self.isLink: self.count2 += 1 if self.count2 == 1: self.temp = data if self.count2 == 3: self.flag = False self.count2 = 0 self.dict[self.temp] = data res = urllib2.urlopen('https://www.bdwm.net/bbs/main0.php') my = MyParser() my.feed(res.read().decode("gbk")) result = '' str = " 版 " str = str.decode('utf8') for i in my.dict: result += i + str + my.dict[i] + '\n' print result
F5运行,抓取结果如下:
> ======================= RESTART =======================
>
化学与分子工程学院 版 不喜欢做实验怎么办
三角地 版 烈士旅正在对对研究生会实施最高军事占领的
十六周年站庆 版 ★★毕业季 | 未名BBS历年纪念品特卖会★★
遗迹保卫 版 母校两日游,想借个饭卡
别问我是谁 版 遇到性骚扰,打电话跟男朋友倾诉……
美食天地 版 请问北大附近哪里有好吃的饺子
男孩子 版 被戴绿帽,万念俱灰!
鹊桥 版 医生mm征GG(#征男友#代征)
谈情说爱 版 # 感觉身边都是嘴上急着脱光但心里不急的人 #
北京大学研究生会 版 农园一层和自称“常代会”的占座女吵起来了(转载)(转载)
可以看到我们成功抓取到了未名BBS十大的版面信息与标题。
下面放语音播报模块,也是整个程序的入口:
# -*- coding: utf-8 -*- ''' Author : Peizhong Ju Latest Update : 2016/4/21 Function : Use Baidu Voice API to speak ''' import urllib, urllib2 import json import ConfigParser import BDWM config = ConfigParser.ConfigParser() config.readfp(open('config.ini')) TOKEN = config.get('Baidu', 'token') local = config.get('Dir', 'mp3') words = '' def GetVoice(): text = urllib.quote(words) url = 'http://tsn.baidu.com/text2audio"r+")) GetVoice() else: print all_the_text else: print '[success] ' + words finally: file_object.close() try: words = BDWM.result.encode('utf8') GetVoice() # use other software to play it except Exception as e: print "ERROR!" print e
当中我们用到了config文件,便于记录和修改,格式如下:
[Baidu] client_id = HWWuh7dee6EBSAvzrOGaGNvX client_secret = G3PwLHC5aCN2TQn3GcYjhn3BmH6xgxtR token = 24.533d59e6554d133ea6bf02125bc6fa30.2592000.1463760851.282335-5802050 [Dir] mp3 = C:\Users\jupeizhong\Desktop\python2\baiduVoice\hello.mp3
其中token是由程序生成的。
以上这篇python抓取网页内容并进行语音播报的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持。
标签:
python,网页内容,语音播报
圆月山庄资源网 Design By www.vgjia.com
广告合作:本站广告合作请联系QQ:858582 申请时备注:广告合作(否则不回)
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件! 如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件! 如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
圆月山庄资源网 Design By www.vgjia.com
暂无评论...
更新日志
2024年11月06日
2024年11月06日
- 雨林唱片《赏》新曲+精选集SACD版[ISO][2.3G]
- 罗大佑与OK男女合唱团.1995-再会吧!素兰【音乐工厂】【WAV+CUE】
- 草蜢.1993-宝贝对不起(国)【宝丽金】【WAV+CUE】
- 杨培安.2009-抒·情(EP)【擎天娱乐】【WAV+CUE】
- 周慧敏《EndlessDream》[WAV+CUE]
- 彭芳《纯色角3》2007[WAV+CUE]
- 江志丰2008-今生为你[豪记][WAV+CUE]
- 罗大佑1994《恋曲2000》音乐工厂[WAV+CUE][1G]
- 群星《一首歌一个故事》赵英俊某些作品重唱企划[FLAC分轨][1G]
- 群星《网易云英文歌曲播放量TOP100》[MP3][1G]
- 方大同.2024-梦想家TheDreamer【赋音乐】【FLAC分轨】
- 李慧珍.2007-爱死了【华谊兄弟】【WAV+CUE】
- 王大文.2019-国际太空站【环球】【FLAC分轨】
- 群星《2022超好听的十倍音质网络歌曲(163)》U盘音乐[WAV分轨][1.1G]
- 童丽《啼笑姻缘》头版限量编号24K金碟[低速原抓WAV+CUE][1.1G]