电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

尚学堂.张志宇.乱码分析_01_基础VIP免费

尚学堂.张志宇.乱码分析_01_基础_第1页
1/21
尚学堂.张志宇.乱码分析_01_基础_第2页
2/21
尚学堂.张志宇.乱码分析_01_基础_第3页
3/21
1.什么是ASCII码ASCII(AmericanStandardCodeforInformationInterchange,美国信息互换标准代码)ASCII码一共规定了128个字符的编码ASCII表上的数字0–31分配给了控制字符,用于控制像打印机等一些外围设备。它已被国际标准化组织(ISO)定为国际标准,称为ISO646标准。参考:从这里看ASCII的内容http://www.jimprice.com/jim-asc.shtml或者看这张图来了解ASCII的内容http://www.asciitable.com/控制字符都什么含义,可以从这个网址了解http://zh.wikipedia.org/w/index.php?title=ASCII&variant=zh-cn2.什么是ISO/IECiso8859ISO8859,全称ISO/IEC8859,是国际标准化组织(ISO)及国际电工委员会(IEC)联合制定的一系列8位字符集的标准,现时定义了15个字符集。ISO/IEC8859-1(Latin-1)-西欧语言ISO/IEC8859-2(Latin-2)-中欧语言ISO/IEC8859-3(Latin-3)-南欧语言。世界语也可用此字符集显示。ISO/IEC8859-4(Latin-4)-北欧语言ISO/IEC8859-5(Cyrillic)-斯拉夫语言ISO/IEC8859-6(Arabic)-阿拉伯语ISO/IEC8859-7(Greek)-希腊语ISO/IEC8859-8(Hebrew)-希伯来语(视觉顺序)ISO8859-8-I-希伯来语(逻辑顺序)ISO/IEC8859-9(Latin-5或Turkish)-它把Latin-1的冰岛语字母换走,加入土耳其语字母。ISO/IEC8859-10(Latin-6或Nordic)-北日耳曼语支,用来代替Latin-4。ISO/IEC8859-11(Thai)-泰语,从泰国的TIS620标准字集演化而来。ISO/IEC8859-13(Latin-7或BalticRim)-波罗的语族ISO/IEC8859-14(Latin-8或Celtic)-凯尔特语族ISO/IEC8859-15(Latin-9)-西欧语言,加入Latin-1欠缺的芬兰语字母和大写法语重音字母,以及欧元(€)符号。ISO/IEC8859-16(Latin-10)-东南欧语言。主要供罗马尼亚语使用,并加入欧元符号。参考:这里有比较详细的说明http://zh.wikipedia.org/w/index.php?title=ISO/IEC_8859&variant=zh-cn3.ISO/IEC8859十五个字符集的比较参考http://zh.wikipedia.org/w/index.php?title=ISO/IEC_8859&variant=zh-cn或者看这个也行http://www.terena.org/activities/multiling/ml-docs/iso-8859.html4.什么是iso-8859-1在ISO/IEC8859-n之中,国际标准化组织只替每个字符集定义了最多96个字符(0xA0-0xFF)。ISO-8859-n(在ISO与8859之间加上一连字号)则是由IANA根据ISO/IEC8859-n所定义的编码表。它除了ISO/IEC8859-n的字符外,还包括ASCII(0x20-0x7E)字符及65个控制字符(0x00-0x1F及0x7E-0x9F)。参考:http://zh.wikipedia.org/wiki/ISO/IEC_8859-1http://wiki.ccw.com.cn/ISO_8859-15.什么是unicodeUnicode的编码方式与ISO10646的通用字符集(UniversalCharacterSet,UCS)概念相对应,目前实际应用的Unicode版本对应于UCS-2,使用16位的编码空间。也就是每个字符占用2个字节。参考:中文的说明http://zh.wikipedia.org/w/index.php?title=Unicode&variant=zh-cn官方网址http://www.unicode.org/如果想下载编码具体内容http://www.unicode.org/charts/查看各种字符集的对应关系http://www.unicode.org/Public/MAPPINGS/完整Unicode编码表http://zh.wikibooks.org/wiki/Unicode6.增补字符增补字符是Unicode标准中代码点超出U+FFFF的字符增补字符是代码点在U+10000至U+10FFFF范围之间的字符,也就是那些使用原始的Unicode的16位设计无法表示的字符在UTF-16编码中,增补字符表示成两个字节。第一个字节属于高代理范围(\uD800-\uDBFF),第二个字节属于低代理范围(\uDC00-\uDFFF).packageencodetest;publicclassTestChar{publicstaticvoidmain(String[]args){System.out.println(Character.charCount(0x10000));System.out.println(Character.isHighSurrogate((char)0xd87e));System.out.println(Character.isLowSurrogate((char)0xdc1a));Strings=String.valueOf(Character.toChars(0x2F81A));char[]chars=s.toCharArray();for(charc:chars){System.out.format("%x",(short)c);}//d87edc1a//这个字符变成了两个char型变量,其中0xd87e就是高代理部分的值,0xdc1a就是低代理的值。}}参考Java平台中的增补字符http://gceclub.sun.com.cn/developer/technicalArticles/I...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

尚学堂.张志宇.乱码分析_01_基础

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部