医 疗 事 业 部 1 ASCII 是 一 种 字 符 集 ,包 括 大 小 写 的 英 文 字 母 、 数 字 、 控 制 字 符 等 , 它 用 一 个 字 节 表 示 , 范 围 是 0-127 由 于 ASCII 表 示 的 字 符 非 常 有 限 , 各 个 国 家 或 者 地 区 在 此 基 础 上 提 出 了 自 己 的 字 符 集 , 比 如 在 中 国 应用 非 常 广 泛 的 GB2312, 它 为 汉 字 提 供 了 编 码 , 用 两 个 字 节 表 示 。 这 些 字 符 集 之 间 互 不 兼 容 , 相 同 的 数 字 可 能 表 示 不 同 的 字 符 , 为 信 息 交 流 带 来 了 麻 烦 。 Unicode 是 一 种 字 符 集 ,它 将 世 界 上 的 所 有 字 符 映 射 成 一 个 唯 一 的 数 字 (code point), 比 如 字 母 a 对 应 的数 字 0x0041。 目 前 Unicode 还 处 于 发 展 中 , 它 所 包 容 的 字 符 越 来 越 多 。 在 将 Unicode 表 示 的 字 符 进 行 存 储 时 , 还 需 要 一 定 的 编 码 方 式 , 比 如 UCS-2, 它 用 两 个 字 节 来 表 示 Unicode 编 码 的 字 符 。 而 UTF-8 是 Unicode 字 符 集 的 另 外 一 种 编 码 方 式 , 它 是 变 长 度 的 , 最 多 6 个字 节 , 小 于 127 的 字 符 用 一 个 字 节 表 示 , 与 ASCII 字 符 集 的 结 果 一 样 , 因而 具有 非 常 好的 兼 容 性, ASCII 编 码 下的 英 语文 本不 需 要 修改就可 以当作 UTF-8 编 码 进 行 处 理, 应 用 非 常 广 泛 。 Python 从 2.2 开始支持 Unicode , 函数 decode( char_set )可 以实现 其它 编 码 到 Unicode 的 转换,函数 encode( char_set )可 以实现 Unicode 到其它 编 码 方 式 的 转换, 这 里所 讲的 Unicode String 是 指 UCS-2 或 者 UCS-4 编 码 的 Code Points。 比 如 ("你好").decode( "GB2312") 将 得到 u'\u4f60\u597d', 即 "你"和“好"的 Unicode 码 分别是 0x4f60 和 0x597d 再用 (u'\u4f60\u597d').encode("UTF-8") 将 得到 '\xe4\xbd\xa0\xe5\xa5\xbd', 它 是 “你好”的 UTF-8...