python的中文处理VIP免费

下载本文档

阅读 141
下载 4
格式 pdf
大小 230.07 KB
约6页
2024-11-29 发布于天津市
收藏
评论
点赞(0)
海报
举报

1/6页

2/6页

3/6页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

文本预览下载提示常见问题

Py thon 的中文处理一、使用中文字符在 py thon 源码中如果使用了中文字符，运行时会有错误，解决的办法是在源码的开头部分加入字符编码的声明，下面是一个例子： #!/u sr/bin/env py thon # -*- coding: cp936 -*- Py thon Tu torial 中指出，py thon 的源文件可以编码 ASCII 以外的字符集，最好的做法是在#!行后面用一个特殊的注释行来定义字符集： # -*- coding: encoding -*- 根据这个声明，Py thon 会尝试将文件中的字符编码转为 encoding 编码，并且，它尽可能的将指定地编码直接写成 Unicode 文本。注意，coding:encoding 只是告诉 Py thon 文件使用了 encoding 格式的编码，但是编辑器可能会以自己的方式存储.py 文件，因此最后文件保存的时候还需要编码中选指定的ecoding才行。二、中文字符的存储 >>> str = u "中文" >>> str u '\x d6\x d0\x ce\x c4' >>> str = "中文" >>> str '\x d6\x d0\x ce\x c4' u "中文"只是声明 u nicode，实际的编码并没有变。这样子就发生变化了： >>> str = "中文" >>> str '\x d6\x d0\x ce\x c4' >>> str = str.decode("gb2312") >>> str u '\u 4e2d\u 6587' 更进一步： >>> s = '中文' >>> s.decode('gb2312') u '\u 4e2d\u 6587' >>> len(s) 4 >>> len(s.decode('gb2312')) 2 >>> s = u '中文' 1 >>> len(s) 4 >>> s = '中文test' >>> len(s) 8 >>> len(s.decode('gb2312')) 6 >>> s = '中文test，' >>> len(s) 10 >>> len(s.decode('gb2312')) 7 可以看出，对于实际Non-ASCII 编码存储的字符串，py thon 可以正确的识别出其中的中文字符以及中文上下文中的标点符号。前缀“u ”表示“后面这个字符串“是一个 Unicode 字符串”，这仅仅是一个声明，并不表示这个字符串就真的是 Unicode 了；就好比某正太声称自己已满 18 岁，但实际上他的真实年龄并不确定，现在体育界年龄造假可不稀罕幺! 那么声明成 u 有什么作用呢？对于Py thon 来说，只要你声明某字符串是 Unicode，它就会用 Unicode 的一套机制对它进行处理。比方说，做字符串操作的时候会动用到内部的Unicode处理函数，保存的时候以Unicode 字符（双字节）进行保存。等等。显而易见，对于一个实际上并不是 Unicode 的字符串，做 Unicode 动作的处理，是有可能会出...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

python的中文处理

Py thon 的中文处理一、使用中文字符在 py thon 源码中如果使用了中文字符，运行时会有错误，解决的办法是在源码的开头部分加入字符编码的声明，下面是一个例子： #

/u sr/bin/env py thon # -*- coding: cp936 -*- Py thon Tu torial 中指出，py thon 的源文件可以编码 ASCII 以外的字符集，最好的做法是在#

行后面用一个特殊的注释行来定义字符集： # -*- coding: encoding -*- 根据这个声明，Py thon 会尝试将文件中的字符编码转为 encoding 编码，并且，它尽可能的将指定地编码直接写成 Unicode 文本

注意，coding:encoding 只是告诉 Py thon 文件使用了 encoding 格式的编码，但是编辑器可能会以自己的方式存储

py 文件，因此最后文件保存的时候还需要编码中选指定的ecoding才行

二、中文字符的存储 >>> str = u "中文" >>> str u '\x d6\x d0\x ce\x c4' >>> str = "中文" >>> str '\x d6\x d0\x ce\x c4' u "中文"只是声明 u nicode，实际的编码并没有变

这样子就发生变化了： >>> str = "中文" >>> str '\x d6\x d0\x ce\x c4' >>> str = str

decode("gb2312") >>> str u '\u 4e2d\u 6587' 更进一步： >>> s = '中文' >>> s

decode('gb2312') u '\u 4e2d\u 6587&

小辰3 + 关注: 实名认证
内容提供者

出售各种资料和文档

收藏店铺进入空间

python的中文处理VIP免费

python的中文处理

您可能关注的文档

相关文档

热门下载

相关标签