医 疗 事 业 部 1 ASCII 是 一 种 字 符 集 ,包 括 大 小 写 的 英 文 字 母 、 数 字 、 控 制 字 符 等 , 它 用 一 个 字 节 表 示 , 范 围 是 0-127 由 于 ASCII 表 示 的 字 符 非 常 有 限 , 各 个 国 家 或 者 地 区 在 此 基 础 上 提 出 了 自 己 的 字 符 集 , 比 如 在 中 国 应用 非 常 广 泛 的 GB2312, 它 为 汉 字 提 供 了 编 码 , 用 两 个 字 节 表 示
这 些 字 符 集 之 间 互 不 兼 容 , 相 同 的 数 字 可 能 表 示 不 同 的 字 符 , 为 信 息 交 流 带 来 了 麻 烦
Unicode 是 一 种 字 符 集 ,它 将 世 界 上 的 所 有 字 符 映 射 成 一 个 唯 一 的 数 字 (code point), 比 如 字 母 a 对 应 的数 字 0x0041
目 前 Unicode 还 处 于 发 展 中 , 它 所 包 容 的 字 符 越 来 越 多
在 将 Unicode 表 示 的 字 符 进 行 存 储 时 , 还 需 要 一 定 的 编 码 方 式 , 比 如 UCS-2, 它 用 两 个 字 节 来 表 示 Unicode 编 码 的 字 符
而 UTF-8 是 Unicode 字 符 集 的 另 外 一 种 编 码 方 式 , 它 是 变 长 度 的 , 最 多 6 个字 节 , 小 于 127 的 字 符 用 一 个 字 节 表 示 , 与 ASCII 字 符 集 的 结 果 一 样 , 因而 具有 非 常 好的 兼 容 性, ASCII 编 码 下的 英 语文 本不 需 要 修改就可 以当作 UTF-8 编 码 进 行 处 理, 应 用 非 常 广 泛
Python 从