前言
因为NLP作业需要用到kenlm,而kenlm在linux下更为方便。本人win10之前开启了子系统,所以就打算在子系统下进行相关作业的完成。
首先开启win10子系统,网上教程挺多,照着做就成。我当前安装版本是Ubuntu16.04。终端输入cat /etc/lsb-release
或uname可以查看版本。子系统开启后,win10的盘符挂载在mnt下,可以执行ls -al /mnt查看。
Python的下载
Linux中自带python2,不过Pyhton软件基金会宣布到2020年元旦不在为py2任何分支提供支持。所以我们下载安装py3。在后面的编译操作中需要用到make和cmake工具,需要提前下载安装。make和cmake的使用,需要gcc的支持。在这里就不介绍gcc的安装了,可自行百度解决。
make是一个命令工具,它解释 Makefile 中的指令。在Makefile文件中描述了整个工程所有文件的编译顺序、编译规则。make依据Makefile文件来批处理编译,因为编写Makefile文件太繁琐复杂,就出现了cmake工具,它能读入所有源文件之后,自动生成makefile。
在进行下面步骤前,先执行sudo apt update
更新,防止出现一些错误
1.make的下载和安装
wget http://ftp.gnu.org/gnu/make/make-4.2.tar.gz tar -zxvf make-4.2.tar.gz cd make-4.2 ./configure #生成 Makefile,为下一步的编译做准备 make #进行源代码编译 sudo make install #安装,这一步会将编译好的make文件转移到/usr/local/make目录下,该目录需要root权限 ln -s -f /usr/local/bin/make /usr/bin/make make --version #查看版本
2.cmake的下载和安装
wget https://cmake.org/files/v3.3/cmake-3.5.1.tar.gz tar xzvf cmake-3.5.1.tar.gz yum install gcc-c++ # 安装gcc等程序包(安装过就忽略) cd cmake-3.5.1 ./bootstrap make make install cmake --version #查看版本
cmake 会默认安装在 /usr/local/bin
下面
也可以直接安装build-essential
软件包,该软件包中包含了编译c/c++所需要的软件包。sudo apt-get install build-essential
3.Python下载
wget https://www.python.org/ftp/python/3.7.3/Python-3.7.3.tgz
4.解压
tar zxvf Python-3.7.3.tgz cd Python-3.7.3
5.编译
./configure --with-ssl make sudo make install
注意:–with-ssl必须加上,否则使用pip安装第三方包时,会引发ssl错误。导致无法使用。如果执行pip install出错,重新编译安装即可。
一些错误问题:
ZipError:
sudo apt install zlib*
ImportError:'_ctypes'
sudo apt-get install python-dev python-setuptools python-pip python-smbus build-essential libncursesw5-dev libgdbm-dev libc6-dev zlib1g-dev libsqlite3-dev tk-dev libssl-dev openssl libffi-dev
6.创建软链接
# 添加python3的软链接 sudo ln -s /usr/local/bin/python3.7 /usr/bin/python3 # 添加 pip3 的软链接 sudo ln -s /usr/local/bin/pip3.7 /usr/bin/pip3
kenlm的安装
1.boost
在boost官网下载boost,本人下载了boost_1_70_0。
cd boost_1_70_0 ./bootstrap.sh ./b2 install
2.xz
wget http://tukaani.org/xz/xz-5.2.2.tar.gz tar xzvf xz-5.2.2.tar.gz cd xz-5.2.2 ./configure make make install
3.zlib
wget http://zlib.net/zlib-1.2.11.tar.gz tar xzf zlib-1.2.11.tar.gz cd zlib-1.2.11 ./configure make make install
4.bzip
wget https://fossies.org/linux/misc/bzip2-1.0.6.tar.gz tar xzvf bzip2-1.0.6.tar.gz cd bzip2-1.0.6/ make make install
5.libbz2-dev
apt-get install libbz2-dev
6.kenlm
在github上有详细的说明,https://github.com/kpu/kenlm。下载解压后
cd kenlm mkdir -p build cd build cmake .. make -j 4 # 启用4个cpu去编译。提高编译速度 cd .. python setup.py install
测试,在python环境中导入kenlm无报错,说明kenlm安装成功。或者运行\kenlm\python\example.py文件
nltk安装
nltk直接用pip下载就行,nltk_data文件较大,可以离线下载后添加进路径。win10下使用nltk_data,直接放进D盘中就行,nltk会自动查找到。但是在Linux下需要将nltk_data路径添加到data,或者移动到下面输出的路径中。为了方便,我个人是建立了个软链接sudo ln -s /mnt/d/nltk_data /usr/local/nltk_data
import nltk nltk.data.find(".") # Searched in: # - '/root/nltk_data' # - '/usr/local/nltk_data' # - '/usr/local/share/nltk_data' # - '/usr/local/lib/nltk_data' # - '/usr/share/nltk_data' # - '/usr/local/share/nltk_data' # - '/usr/lib/nltk_data' # - '/usr/local/lib/nltk_data'
在当前会话下添加路径到data
from nltk import data data.path.append(r"你下载的nltk_data所在路径")
添加完路径,使用nltk.data.path
查看当前已添加路径
简单测试
from nltk.tokenize import word_tokenize sentence = "since the 1890s , and beginning in france , the term ''libertarianism '' has often been used as an synonym for anarchism and was used almost exclusively in this sense until the 1950s in the united states ; its use as an synonym is still common outside the united states ." print(word_tokenize(sentence))
总结
以上所述是小编给大家介绍的win10子系统python开发环境准备及kenlm和nltk的使用教程,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对网站的支持!
如果你觉得本文对你有帮助,欢迎转载,烦请注明出处,谢谢!
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件! 如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
稳了!魔兽国服回归的3条重磅消息!官宣时间再确认!
昨天有一位朋友在大神群里分享,自己亚服账号被封号之后居然弹出了国服的封号信息对话框。
这里面让他访问的是一个国服的战网网址,com.cn和后面的zh都非常明白地表明这就是国服战网。
而他在复制这个网址并且进行登录之后,确实是网易的网址,也就是我们熟悉的停服之后国服发布的暴雪游戏产品运营到期开放退款的说明。这是一件比较奇怪的事情,因为以前都没有出现这样的情况,现在突然提示跳转到国服战网的网址,是不是说明了简体中文客户端已经开始进行更新了呢?
更新日志
- 雨林唱片《赏》新曲+精选集SACD版[ISO][2.3G]
- 罗大佑与OK男女合唱团.1995-再会吧!素兰【音乐工厂】【WAV+CUE】
- 草蜢.1993-宝贝对不起(国)【宝丽金】【WAV+CUE】
- 杨培安.2009-抒·情(EP)【擎天娱乐】【WAV+CUE】
- 周慧敏《EndlessDream》[WAV+CUE]
- 彭芳《纯色角3》2007[WAV+CUE]
- 江志丰2008-今生为你[豪记][WAV+CUE]
- 罗大佑1994《恋曲2000》音乐工厂[WAV+CUE][1G]
- 群星《一首歌一个故事》赵英俊某些作品重唱企划[FLAC分轨][1G]
- 群星《网易云英文歌曲播放量TOP100》[MP3][1G]
- 方大同.2024-梦想家TheDreamer【赋音乐】【FLAC分轨】
- 李慧珍.2007-爱死了【华谊兄弟】【WAV+CUE】
- 王大文.2019-国际太空站【环球】【FLAC分轨】
- 群星《2022超好听的十倍音质网络歌曲(163)》U盘音乐[WAV分轨][1.1G]
- 童丽《啼笑姻缘》头版限量编号24K金碟[低速原抓WAV+CUE][1.1G]