现代汉语语料库加工规范 ——词语切分与词性标注 1999 年 3 月 版 北 京 大 学 计 算 语 言 学 研 究 所 1999 年 3 月 14 日 ⒈ 前 言 北 大 计 算 语 言 学 研 究 所 从 1992 年 开 始 进 行 汉 语 语 料 库 的 多 级 加 工 研 究
第 一 步 是 对 原始 语 料 进 行 切 分 和 词 性 标 注
1994 年 制 订 了 《 现 代 汉 语 文 本 切 分 与 词 性 标 注 规 范 V 1
几 年 来 已 完 成 了 约 60 万 字 语 料 的 切 分 与 标 注 , 并 在 短 语 自 动 识 别 、 树 库 构 建 等 方 向 上 进 行了 探 索
在 积 累 了 长 期 的 实 践 经 验 之 后 , 最 近 又 进 行 了 《 人 民 日 报 》 语 料 加 工 的 实 验
为 了保 证 大 规 模 语 料 加 工 这 一 项 重 要 的 语 言 工 程 的 顺 利 进 行 , 北 大 计 算 语 言 学 研 究 所 于1998 年10 月 制 订 了 《 现 代 汉 语 文 本 切 分 与 词 性 标 注 规 范 V 2
0》( 征 求 意 见 稿 )
因 这 次 加 工 的 任 务超 出 词 语 切 分 与 词 性 标 注 的 范 围 , 故 将 新 版 的 规 范 改名为 《 现 代 汉 语 语 料 库 加 工 规 范 》
制 订 《 现 代 汉 语 语 料 库 加 工 规 范 》 的 基本 思路如下: ⑴ ⑴ 词 语 的 切 分 规 范 尽可能同中国国家标 准GB13715“信息处理用现 代 汉 语 分 词规 范 ” ( 以下简称为 “分 词 规 范 ”) 保 持一 致
由于 现 在 词 语 切 分 与 词 性 标 注 是 结合起 来 进行 的 , 而 且 又 有