Python中文处理VIP免费

下载本文档

阅读 151
下载 27
格式 ppt
大小 82 KB
约19页
2024-11-16 发布于河南
收藏
评论
点赞(0)
海报
举报

1/19页

2/19页

3/19页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

/19

文本预览下载提示常见问题

Python中文处理zhoo.xuan@gmail.com2011.3.5先看个熟悉的异常：原因：ascii编码无法处理超过128的值也就是超过27ASCII编码：使用了7位来表示字符，所能表示的字符数量也就是0~127对于中文来说，远远不够于是。。。讲点ascii历史Unicode顺应而生！Unicodeisacomputingindustrystandardfortheconsistentencoding,representationandhandlingoftextexpressedinmostoftheworld'swritingsystems.--摘自wikipedia刚才那个太抽象哈unicode是个方便各种编码之间转换的标准，它可以包含世界上的所有字符codepoint，unicode标准定义了如何通过codepoint来表示字符。codepoint是个int型的值，用16位表示。形如U+897f，对应0x897f一个codepoint，也就相当与一个unicodecharacterunicodestring，也就是许多的codepoint连接在一起encode:把unicodestring转换为一系列的字节decode:把一系列的字节值转换为unicodestringgbk编码：使用了两个字节来表示一个字符utf-8编码：1,codepointis<128,ascii2,1280x7ff,返回三个字节.python中的内建类型：unicodereturnunicodestringimportsyssys.getdefaultencoding()可以看到每个unicode实例的默认编码为utf-8u=unicode('西')utf8=u.encode('utf-8')gbk=u.encode('gbk')gbk.decode('gbk').encode('utf8')理论就Over拉，说说我在使用中遇到的问题;)1，解释器ipythonu1=u'西'u2=unicode('西')ipython对u1的处理是有问题的，返回的是经过encode后的值，显示有问题问题描述：https://github.com/ipython/ipython/issuesearch?state=open&q=encodings#issue/25临时解决办法：使用hackipy2.py来启动ipython，目前2，打开文件时roamin9Bot中记录日志的方法deflog(self,content):time_style="%Y-%m-%d%H:%M:%S"f=file('log_file','a')#f=codecs.open('log_file','a',encoding='utf8')f.write(content+strftime(time_style)+'\n')f.close()python打开文件默认使用的编码为ascii在python源码中，我们可以通过在文件的开头两行使用模式：coding[:=]\s*([-\w.]+)只要与上述的正则匹配，就可以声明此文件的编码打开普通文件时，两种打开方式open('/path/to/file','mode')codecs.open('/path/to/file','mode',encoding='utf-8')3，\u4e00-\u9fa5要注意pattern的编码是否和string的编码一致4，web.pyEndQ&A感谢你们的耐心;)@roamin9zhoo.xuan@gmail.com

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

Python中文处理

您可能关注的文档

教育精品店 + 关注: 实名认证
内容提供者

优良的服务

收藏店铺进入空间

Python中文处理VIP免费

Python中文处理

您可能关注的文档

相关文档

热门下载

相关标签