现代汉语语料库加工规范 ——词语切分与词性标注 1999 年 3 月 版 北 京 大 学 计 算 语 言 学 研 究 所 1999 年 3 月 14 日 ⒈ 前 言 北 大 计 算 语 言 学 研 究 所 从 1992 年 开 始 进 行 汉 语 语 料 库 的 多 级 加 工 研 究 。 第 一 步 是 对 原始 语 料 进 行 切 分 和 词 性 标 注 。 1994 年 制 订 了 《 现 代 汉 语 文 本 切 分 与 词 性 标 注 规 范 V 1.0》。几 年 来 已 完 成 了 约 60 万 字 语 料 的 切 分 与 标 注 , 并 在 短 语 自 动 识 别 、 树 库 构 建 等 方 向 上 进 行了 探 索 。 在 积 累 了 长 期 的 实 践 经 验 之 后 , 最 近 又 进 行 了 《 人 民 日 报 》 语 料 加 工 的 实 验 。 为 了保 证 大 规 模 语 料 加 工 这 一 项 重 要 的 语 言 工 程 的 顺 利 进 行 , 北 大 计 算 语 言 学 研 究 所 于1998 年10 月 制 订 了 《 现 代 汉 语 文 本 切 分 与 词 性 标 注 规 范 V 2.0》( 征 求 意 见 稿 )。 因 这 次 加 工 的 任 务超 出 词 语 切 分 与 词 性 标 注 的 范 围 , 故 将 新 版 的 规 范 改名为 《 现 代 汉 语 语 料 库 加 工 规 范 》 。 制 订 《 现 代 汉 语 语 料 库 加 工 规 范 》 的 基本 思路如下: ⑴ ⑴ 词 语 的 切 分 规 范 尽可能同中国国家标 准GB13715“信息处理用现 代 汉 语 分 词规 范 ” ( 以下简称为 “分 词 规 范 ”) 保 持一 致。 由于 现 在 词 语 切 分 与 词 性 标 注 是 结合起 来 进行 的 , 而 且 又 有 了 一 部 《 现 代 汉 语 语 法 信息词 典 》( 以下有 时 简称“语 法 信息词 典 ”或 “语法 词 典 ”) 可作 为 词 语 切 分 与 词 性 标 注 的 基本 参 照 , 这 就 有 必 要 对 “分 词 规 范 ”作 必 要 的 调整 和 补 充 。 ⑵ ⑵ 小 标 记 集 。 词 性 标 注 除 了 使 用《 现 代 汉 语 语 法 信息词 典 》 中的 26 个 词 类 标 记( 名词 n、 时 间 词 t、 处...