python解决汉字编码问题：Unicode Decode Error

脚本专栏 2025/1/9 佚名

3 2 1

圆月山庄资源网 Design By www.vgjia.com

前言

最近由于项目需要，需要读取一个含有中文的txt文档，完了还要保存文件。文档之前是由base64编码，导致所有汉字读取显示乱码。项目组把base64废弃之后，先后出现两个错误：

ascii codec can't encode characters in position ordinal not in range 128
UnicodeDecodeError: ‘utf8' codec can't decode byte 0x。

如果对于ascii、unicode和utf-8还不了解的小伙伴，可以看之前的这篇文章关于字符串和编码

那么必须对下面这三个概念有所了解：

ascii只能表示数字、英文字母和一些特殊符号，不能表示汉字
unicode和utf-8都可以表示汉字，unicode是固定长度，utf-8是可变长度
内存中存储方式一般为unicode，而磁盘文件存储方式一般为utf-8，因为utf-8可以节约存储空间

那么python的默认编码是什么？

> import sys
> sys.getdefaultencoding()
'ascii'
> reload(sys)
<module 'sys' (built-in)>
> sys.setdefaultencoding('utf-8')
> sys.getdefaultencoding()
'utf-8'

python的默认编码是ascii，可以通过sys.setdefaultencoding('utf-8')函数设置python的默认编码。

python中可以通过encode和decode的方式改变数据的编码，比如：

> u'汉字'
u'\u6c49\u5b57'
> u'汉字'.encode('utf-8')
'\xe6\xb1\x89\xe5\xad\x97'
> u'汉字'.encode('utf-8').decode('utf-8')
u'\u6c49\u5b57'

我们可以通过这两个函数设置编码。

那么，python中的str是什么类型？

> import binascii
> '汉字'
'\xba\xba\xd7\xd6'
> type('汉字')
<type 'str'>
> print binascii.b2a_hex('汉字')
babad7d6
> print binascii.b2a_hex(u'汉字')
Traceback (most recent call last):
 File "<stdin>", line 1, in <module>
UnicodeEncodeError: 'ascii' codec can't encode characters in
position 0-1: ordinal not in range(128)
> print binascii.b2a_hex(u'汉字'.encode('utf-8'))
e6b189e5ad97
> print binascii.b2a_hex(u'汉字'.encode('gbk'))
babad7d6

binascii是将数据的二进制转换成ascii，上面的解释是：‘汉字'的类型是str，二进制是babad7d6，u‘汉字'是无法转换成ascii，这样就报出了开头的第一个错误。解决办法就是把它.encode(‘utf-8')成str类型。因为我命令行是windows默认的GBK编码，所有u'汉字'.encode(‘gbk')的时候，输出结果和‘汉字'结果一样。

总结一下，python的str实际上是unicode的一种，python的默认编码是ascii，对于非ascii转成ascii的时候都会报错，牢记下面的规则：

unicode => encode(‘合适的编码') => str
str => decode(‘合适的编码') => unicode

还有一种简单的方式，就是在文件头设置编码，可以省去很多麻烦：

import sys
reloads(sys)
sys.setdefaultencoding('utf-8')

对于第二个问题，是在文件读取的时候出的错。utf-8的文件有bom和无bom两种方式，两者的差别好像在bom文件比无bom文件多了一个头，导致以utf-8方式读文件时报错，我先前曾尝试读文件的时候先对有无bom进行判断，跳过bom文件的头，后来失败了，真尴尬～～。

还得上google求助大神，具体的操作方法就是使用codecs库来读文件（我猜这个库就是对文件的头进行检测）。

import codecs
codecs.open(file_name, "r",encoding='utf-8', errors='ignore')

对于编码问题，一定要懂得ascii、unicode和utf-8工作原理。

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作能带来一定的帮助，如果有疑问大家可以留言交流。

python,汉字编码转换,python,utf8编码汉字,python,查看汉字编码

标签：

python,汉字编码转换,python,utf8编码汉字,python,查看汉字编码

圆月山庄资源网 Design By www.vgjia.com

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站文章均来自网站采集或用户投稿，网站不提供任何软件下载或自行开发的软件！如有用户或公司发现本站内容信息存在侵权行为，请邮件告知！ 858582#qq.com

圆月山庄资源网 Design By www.vgjia.com

评论“python解决汉字编码问题：Unicode Decode Error”

暂无评论...

P70系列延期，华为新旗舰将在下月发布

3月20日消息，近期博主@数码闲聊站透露，原定三月份发布的华为新旗舰P70系列延期发布，预计4月份上市。

而博主@定焦数码爆料，华为的P70系列在定位上已经超过了Mate60，成为了重要的旗舰系列之一。它肩负着重返影像领域顶尖的使命。那么这次P70会带来哪些令人惊艳的创新呢？
根据目前爆料的消息来看，华为P70系列将推出三个版本，其中P70和P70 Pro采用了三角形的摄像头模组设计，而P70 Art则采用了与上一代P60 Art相似的不规则形状设计。这样的外观是否好看见仁见智，但辨识度绝对拉满。

更新日志

2025年01月09日

python解决汉字编码问题：Unicode Decode Error

python,汉字编码转换,python,utf8编码汉字,python,查看汉字编码

python：socket传输大文件示例

详解使用pymysql在python中对mysql的增删改查操作(综合)

评论“python解决汉字编码问题：Unicode Decode Error”

P70系列延期，华为新旗舰将在下月发布

更新日志

友情链接