Python3.5 中关于编码的问题如何处理？

用 scrapy 写了一个爬虫，之前在其他服务器上和本地都可以跑的很好
今天换了个 ubuntu 服务器，发现报编码错误：
print('############\u7ed3\u675f\u5566' + spider.name)
UnicodeEncodeError: 'ascii' codec can't encode characters in position 12-14: ordinal not in range(128)

这里连代码里写死的 print 语句，都显示不了中文，本来应该是：
print('############开始啦'+spider.name)

每个 py 文件的开头也都加了
'# -- coding: utf-8 -- '
查了 python3 的 getdefaultencoding 结果 utf-8

以前在 python2.7 下这样好解决，但是 python3 怎么会这样... 麻烦问下这个可能是什么原因？

yuanlaile 1楼

因为 console 是字节流输出，不能输出 unicode 字符串，而 python3 的字符串常量是 unicode。当你 print 中文，python 内部会自动转码。而这个转码可能受很多因素影响，所以不好处理。

试试 click.echo，或者 logging。

wuwangju 2楼

在Python 3.5中，字符串默认使用Unicode（UTF-8），但处理文件或网络数据时仍需注意编码。核心原则是：在程序内部使用str（Unicode），仅在I/O边界进行编解码。

常见场景处理：

读取文件时指定编码：

with open('file.txt', 'r', encoding='utf-8') as f:
    content = f.read()  # 得到str对象

写入文件时指定编码：

text = "你好世界"
with open('file.txt', 'w', encoding='utf-8') as f:
    f.write(text)

处理未知编码的数据：

# 尝试解码（如从网络或二进制文件）
byte_data = b'\xe4\xbd\xa0\xe5\xa5\xbd'
try:
    text = byte_data.decode('utf-8')
except UnicodeDecodeError:
    text = byte_data.decode('gbk', errors='ignore')  # 忽略错误字符

系统编码问题：

import sys
print(sys.getdefaultencoding())  # 查看默认编码

关键点：

避免使用str(b'bytes')直接转换
不要依赖系统默认编码（用encoding参数显式指定）
处理中文路径/文件名时，可使用os模块的函数接受bytes参数

简单建议：始终显式指定UTF-8编码，并在错误时妥善处理。

ionicwang 3楼

http://click.pocoo.org/5/utils/#printing-to-stdout

eggper 4楼作者

字节流输出 ? 指 bytes 类型？那么得到的结果在 print 之前先作一次解码试试:

_str_out = _raw_bytes_out.decode(‘utf-8’)
print(_str_out)

zlyuanteng 5楼

我之前在学校的上古服务器也遇到过这个问题，最后发现是 locale 出了问题，解决方法是在最开始加上：

import locale
locale.setlocale(locale.LC_ALL, ‘en_US.UTF-8’)

gougou168 6楼

这个是终端的问题, 你终端不支持 Unicode, 但是 Python 里又是 Unicode 的输出, 就冲突了.

caililin 7楼

对，正如所述，大部分 console 都是字节输出。print 遇到这种情况，会把 unicode 转换成字节。

但是这个编码不是 python 自己决定的，是根据操作系统和其他各种环境决定的。比如所述的 LC_ALL 环境变量。此外有些操作系统也有可能直接支持 unicode，我不太清楚，但是 windows 也许可以。

总之情况非常复杂，所以与其自己处理，不如用类库。click.echo 自称做了很多工作。

gougou168 8楼

我猜你用了 supervisor ？

vueper 9楼

终端的 locale 没设置好，导致 Python 对终端的输出编码识别为了 ascii，而 ascii 无法 encode Unicode，于是就报错了。

phonegap100 10楼

export LC_ALL=‘en_us.utf8’ 添加到 ~/.bashrc 中。en_us.utf8 这种 locale 串分别是 [语言_地区.字符集], zh_cn.utf8 代表 zhongwen_China.utf8，虽然都是 UTF8 但是不同语言和地区的日期显示，金钱符，吧啦吧啦的显示不一样。