圆月山庄资源网 Design By www.vgjia.com
本文实例为大家分享了python创建单词词库的具体代码,供大家参考,具体内容如下
基本思路:以COCA两万单词表为基础,用python爬取金山词霸的单词词性,词义,音频分别存入sqllite。背单词的时候根据需要自定义数据的选择方式。
效果如下:
代码写的比较随意,还请见谅。
创建数据库
复制代码 代码如下:cu.execute('create table test (id INTEGER PRIMARY KEY AUTOINCREMENT,dc varchar(20),cx varchar(20),cy varchar(50),mp3 varchar(50));')
完整代码,效率不高,不过够用了
import requests from bs4 import BeautifulSoup import re import traceback import sqlite3 import time import sys def ycl(word): try: url = "http://www.iciba.com/{}".format(word) headers = { 'Host': 'www.iciba.com', 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0', 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8', 'Accept-Language': 'zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3', 'Accept-Encoding': 'gzip, deflate', 'Referer': 'http://www.baidu.com', 'Connection': 'keep-alive', 'Cache-Control': 'max-age=0', } response = requests.get(url = url,headers = headers) soup = BeautifulSoup(response.text,"lxml") #输出单词词性 cx = soup.find(class_='base-list switch_part')(class_='prop') #输出词性词义 mp3 = soup.find_all(class_='new-speak-step')[1] pattern = re.compile(r'http://("E:\\sound\\" mp3path = dress +word+".mp3" with open(mp3path, 'wb') as f: f.write(r.content) #获取词性个数 meanings =soup.find_all(class_='prop') #实行每个词性的词义同行输出 for i in range(len(meanings)): s = soup.find(class_='base-list switch_part')('li')[i]('span') c = cx[i].text a = '' for x in range(len(s)): b = s[x].text a = a + b print(word) print(c) print(a) # 存入数据库的方法 conn = sqlite3.connect("word.db") cu = conn.cursor() sql =cu.execute("INSERT INTO test (id,dc,cx,cy,mp3)VALUES(NULL,'%s','%s','%s','%s');"%(word,c,a,mp3path)) print(sql) conn.commit() print('\n') except Exception as e: print(e) print("error") with open("log.txt",'a') as f: f.write(word+'\n') def duqudanci(file): wordcount = 0 for line in open(file): word = line.strip('\n') wordcount += 1 print(wordcount) ycl(word) if __name__ == '__main__': conn = sqlite3.connect("word.db") cu = conn.cursor() word = "" #需要爬取的单词 duqudanci(sys.argv[1]) print('下载完成') conn.commit() conn.close()
自定义背单词: 根据需要可以将单词放入txt文件中进行测试,可以输出词义拼写单词,也可以输出单词,选择对应释义。 当然还可以给每个单词词义加两个属性值,分别表示学习次数和答错次数,然后可以根据这两个值来选择单词,如果有兴趣的话,可以尝试一下。
import sqlite3 import random import sys from playsound import playsound # 中译英 def CtoE(): for j in list1: sql =cu.execute('select id,dc,cx,cy,mp3 from wordinfo where id = "当前单词ID = "+str(it[0])) print("释义:"+it[3]) # 播放音频 playsound(it[4]) a = input("请拼写单词,共有三次机会:") if a == it[1]: print("拼写正确") break; c += 1 print('第%d次拼写错误'%c) print('\n') print("下一个") print('\n') # 英译中 def EtoC(): for j in list1: sql =cu.execute('select id,dc,cx,cy,mp3 from wordinfo where id = "当前单词ID = "+str(it[0])) print("选择单词的对应释义:----"+it[1]) playsound(it[4]) dict1 = {'A':list2[0],'B':list2[1],'C':list2[2],'D':list2[3]} print("A:"+dict1.get('A')+'\n') print("B:"+dict1.get('B')+'\n') print("C:"+dict1.get('C')+'\n') print("D:"+dict1.get('D')+'\n') answer1 = input("请选择,共有三次机会(大写):") if dict1.get(answer1)== it[3]: print("正确") break; c += 1 print('第%d次拼写错误'%c) d += 1 print('\n') print("下一个") print('\n') def main(file): for line in open(file): word = line.strip('\n') sql =cu.execute('select id from wordinfo where dc = "英译中请选1,中译英请选2:") if cho =="1": EtoC() elif cho =="2": CtoE() else: print("错误,请重试") if __name__ == '__main__': conn = sqlite3.connect("word.db") cu = conn.cursor() list1 = [] word = "" main(sys.argv[1]) conn.commit() conn.close()
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持。
圆月山庄资源网 Design By www.vgjia.com
广告合作:本站广告合作请联系QQ:858582 申请时备注:广告合作(否则不回)
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件! 如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件! 如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
圆月山庄资源网 Design By www.vgjia.com
暂无评论...
稳了!魔兽国服回归的3条重磅消息!官宣时间再确认!
昨天有一位朋友在大神群里分享,自己亚服账号被封号之后居然弹出了国服的封号信息对话框。
这里面让他访问的是一个国服的战网网址,com.cn和后面的zh都非常明白地表明这就是国服战网。
而他在复制这个网址并且进行登录之后,确实是网易的网址,也就是我们熟悉的停服之后国服发布的暴雪游戏产品运营到期开放退款的说明。这是一件比较奇怪的事情,因为以前都没有出现这样的情况,现在突然提示跳转到国服战网的网址,是不是说明了简体中文客户端已经开始进行更新了呢?
更新日志
2024年11月05日
2024年11月05日
- 雨林唱片《赏》新曲+精选集SACD版[ISO][2.3G]
- 罗大佑与OK男女合唱团.1995-再会吧!素兰【音乐工厂】【WAV+CUE】
- 草蜢.1993-宝贝对不起(国)【宝丽金】【WAV+CUE】
- 杨培安.2009-抒·情(EP)【擎天娱乐】【WAV+CUE】
- 周慧敏《EndlessDream》[WAV+CUE]
- 彭芳《纯色角3》2007[WAV+CUE]
- 江志丰2008-今生为你[豪记][WAV+CUE]
- 罗大佑1994《恋曲2000》音乐工厂[WAV+CUE][1G]
- 群星《一首歌一个故事》赵英俊某些作品重唱企划[FLAC分轨][1G]
- 群星《网易云英文歌曲播放量TOP100》[MP3][1G]
- 方大同.2024-梦想家TheDreamer【赋音乐】【FLAC分轨】
- 李慧珍.2007-爱死了【华谊兄弟】【WAV+CUE】
- 王大文.2019-国际太空站【环球】【FLAC分轨】
- 群星《2022超好听的十倍音质网络歌曲(163)》U盘音乐[WAV分轨][1.1G]
- 童丽《啼笑姻缘》头版限量编号24K金碟[低速原抓WAV+CUE][1.1G]