圆月山庄资源网 Design By www.vgjia.com
背景
原是弱电集成的设计员,纠结很久后参加了python培训机构转职后的一员小白,由于一次工作中需要翻译一份近100页word表格,纯手工翻译大概三个小时,为了解决这种重复又耗时的劳动,并重温python相关知识所以制作了该小程序。
脚本详情
import re import docx import time import pandas as pd from selenium import webdriver from selenium.webdriver.chrome.options import Options # 导入chrome选项 from selenium.webdriver.common.keys import Keys from os import system ''' seleium爬虫效率很低但胜在不用考虑反爬问题,由于想加快翻译速度并实现转换为exe文件后可在其他无python环境中运行, 添加excel表格充当数据库,excel文件中,一列命名漏洞英文列表,一列命名漏洞翻译列表,由于使用seleeium需在python目 录下添加对应浏览器driver,由于我使用的是chrome所以需下载chromedriver。 ''' def mydoc(doc,table,huan,expath): table_contents = [] table_content_trans = [] for i in range(0,len(table.rows)):#设定i值极限 行 data = pd.DataFrame(pd.read_excel(expath)) datalist_d = data['漏洞英文列表'] datalist_t = data['漏洞翻译列表'] i_text = table.cell(i,0).text#表格内i行j列单元格内容赋值给i_text zhPattern = re.compile(u'[\u4e00-\u9fa5]+') # 中文字符范围 szPattern = re.compile(u'[0-9]') # 数字范围 # spPattern = re.compile(u'[/]+') contents = u'{}'.format(i_text) # 表格内单元格文本 # search整个字符串内查找模式匹配,找到第一个匹配然后返回一个包含匹配信息的对象,无则NONE # match匹配字符串第一位,开头位置是否匹配,匹配成功才会返回结果,否则返回None #'[^"\n", "") # 内容去除换行 table.cell(i, 0).text = trans_result_n # 替换表格内容 table_content_trans.append(trans_result_n) # 翻译和排版后内容加入表格 data_t = pd.Series({"漏洞英文列表": i_text,"漏洞翻译列表": trans_result_n}, name='漏洞库') # 添加数据 data_add_t = data.append(data_t) # 添加数据 data_add_t.to_excel(expath, index=False) # 存入excel中 print('存入漏洞库...') else: table.cell(i, 0).text = trans_result # 替换表格内容 table_content_trans.append(trans_result) # 翻译和排版后内容加入表格 data_t = pd.Series({"漏洞英文列表": i_text,"漏洞翻译列表": trans_result}, name='漏洞库') # 添加数据 data_add_t = data.append(data_t) # 添加数据 data_add_t.to_excel(expath, index=False) # 存入excel中 print('存入漏洞库...') else: print('漏洞库为空') table_contents.append(i_text) # 表格内内容 trans_result = myspider(i_text) # 翻译表格内容 print('翻译中...') if huan == 1: trans_result_n = trans_result.replace("\n", "") # 内容去除换行 table.cell(i, 0).text = trans_result_n # 替换表格内容 table_content_trans.append(trans_result_n) # 翻译和排版后内容加入表格 data_t = pd.Series({"漏洞英文列表": i_text,"漏洞翻译列表": trans_result_n}, name='漏洞库') # 添加数据 data_add_t = data.append(data_t) # 添加数据 data_add_t.to_excel(expath, index=False) # 存入excel中 print('存入漏洞库...') else: table.cell(i, 0).text = trans_result # 替换表格内容 table_content_trans.append(trans_result) # 翻译和排版后内容加入表格 data_t = pd.Series({"漏洞英文列表": i_text,"漏洞翻译列表": trans_result}, name='漏洞库') # 添加数据 data_add_t = data.append(data_t) # 添加数据 data_add_t.to_excel(expath, index=False) # 存入excel中 print('存入漏洞库...') #判断列表中是否都是空字符串 flag = False for i in table_contents: if i.strip() != '': flag = True # 空列表或者列表中都是空字符串不翻译 if len(table_contents) == 0 or flag == False: return print("此表格无需翻译或漏洞库中已存储") else: print('表格待翻译内容:',table_contents) print('表格翻译后内容:',table_content_trans) def myspider(text): # 设置chrome浏览器无头模式 chrome_options = Options() chrome_options.add_argument('--headless') driver = webdriver.Chrome(chrome_options=chrome_options) # driver.fullscreen_window() #全屏 driver.maximize_window() # 屏幕最大化 # 打开有道翻译页面 driver.get("http://fanyi.youdao.com/") time.sleep(0.5) # 获取页面名为inputOriginal的id标签的文本内容 inputwd = driver.find_element_by_id("inputOriginal") # 搜索输入文本框的id属性值 .text #id="wrapper"的所有文本 but = driver.find_element_by_id('transMachine') # 搜索提交按钮//*[@id="transMachine"] outputwd = driver.find_element_by_xpath('//*[@id="transTarget"]') # 翻译后文本框 inputwd.clear() # 清除文本框里的内容 # outputwd.clear() # 清除文本框里的内容 inputwd.send_keys(text) # 输入翻译内容 but.send_keys(Keys.RETURN) # 输入回车键 but.click() #点击按钮s time.sleep(0.5) result = outputwd.text # 关闭浏览器 driver.quit() return result def mymain(): # urlname = input('输入路径:') docname = input('输入文件全名:') huan = int(input('翻译内容是否需删除换行(1.是2.否):')) # urlname_t = urlname.replace('\\','\\\\') # print('转义后路径:',f'{urlname}//{docname}') path = f'.\\{docname}' #文件路径 expath = '.\\漏洞库.xlsx' doc = docx.Document(path) tables = doc.tables # 获取文件中的表格集 e1 = time.time() print(f'共{len(tables)}个表格') n = 1 try: for i in range(0,len(tables)): table = tables[i] mydoc(doc,table,huan,expath) print(f'\n剩余{len(tables)-n}个表格待翻译') time.sleep(0.3) n += 1 doc.save(f".\\trans{docname}") except Exception as e: print('报错:',e) e2 = time.time() print('耗时:',float(e2 - e1)) print('转换完毕') system('pause') mymain()
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持。
圆月山庄资源网 Design By www.vgjia.com
广告合作:本站广告合作请联系QQ:858582 申请时备注:广告合作(否则不回)
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件! 如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件! 如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
圆月山庄资源网 Design By www.vgjia.com
暂无评论...
RTX 5090要首发 性能要翻倍!三星展示GDDR7显存
三星在GTC上展示了专为下一代游戏GPU设计的GDDR7内存。
首次推出的GDDR7内存模块密度为16GB,每个模块容量为2GB。其速度预设为32 Gbps(PAM3),但也可以降至28 Gbps,以提高产量和初始阶段的整体性能和成本效益。
据三星表示,GDDR7内存的能效将提高20%,同时工作电压仅为1.1V,低于标准的1.2V。通过采用更新的封装材料和优化的电路设计,使得在高速运行时的发热量降低,GDDR7的热阻比GDDR6降低了70%。
更新日志
2024年11月02日
2024年11月02日
- lol全球总决赛lck一号种子是谁 S14全球总决赛lck一号种子队伍
- BradMehldau-ApresFaure(2024)[24-96]FLAC
- IlCannone-FrancescaDegoPlaysPaganinisViolin(2021)[24-96]FLAC
- Tchaikovsky,Babajanian-PianoTrios-Gluzman,Moser,Sudbin[FLAC+CUE]
- 费玉清.1987-费玉清十周年旧曲情怀4CD【东尼】【WAV+CUE】
- 群星.2024-春花焰电视剧影视原声带【TME】【FLAC分轨】
- 方力申.2008-我的最爱新曲+精丫金牌大风】【WAV+CUE】
- 群星 《2024好听新歌35》十倍音质 U盘音乐 [WAV分轨][1.1G]
- 群星《烧透你的耳朵1》DXD金佰利 [低速原抓WAV+CUE][1.2G]
- 莫文蔚《超级金曲精选2CD》SONY [WAV+CUE][1.6G]
- 【RR】加尼克奥尔森GarrickOhlsso《贝多芬钢琴协奏曲全集》原声母带WAV
- 彭芳《纯色角1》[WAV+CUE]
- 李蔓《山顶的月亮—李蔓动态情歌》
- 梁咏琪.1999-新鲜【EEI】【WAV+CUE】
- 张琍敏.1979-悲之秋【海山】【FLAC分轨】