电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

平行语料库制作流程VIP免费

平行语料库制作流程_第1页
1/3
平行语料库制作流程_第2页
2/3
平行语料库制作流程_第3页
3/3
平行语料库制作流程说明:在邹颂兵先生、孟令子博士的基础上,由李涛、李晓倩讨论完成,期间胡慧婷也参与讨论,给予了很好的建议。这个流程对于有些老师和同学,实在没有必要这么繁琐,有些步骤可以利用一些软件一次性解决,推荐两款软件试用,文本整理器;PowerGREP。之所以如此繁琐,是想让大家更加详细的了解整个建库流程以及为什么这么做。当然在建库过程中还会遇到更多的问题,大家可以尝试自己去解决。)1. 语料采集(目的不同,方法各异)2. 去噪 ( Emeditor)(1)消除回车和空行:\n\s* —— 空(\n 表示新行; \s 表示空格, * 表示 0 个或多个;之所以加上\s* 是为了避免回车键前面有空格。 )(2)去空格英文 \s+ 替换为 空格 ( \s 表示空格, +表示 1 个或更多 。该表达式意思表明如果原来有1 个空格,就替换为 1 个空格,如果多于1 个空格,仍然替换为1 个空格。之所以如此,是因为英文单词之间是有1 个空格存在的。)中文 \s* 替换为 空(\s 表示空格, *表示 0 个或更多 。该表达式意思表明如果原来有0 个空格,就替换为0 个空格,如果多于1 个空格,仍然替换为0 个空格。之所以如此,是因为汉字之间是有0 个空格存在的。 )3. 分词英文 Claws 中文 ICTCLAS (可以选择二级标准,北大标准)中文分词校对常见: 人名标注为/nr ,(如小说 《首席》 里,人名飘雪被标注为“飘 /v 雪/n ”; 可以统一替换为 “飘雪/nr ”); 地名/ns;4. 标点符号处理英语标点符号全部替换成单个标点。(因为 Claws标注后的英文标点及其标注显示为“标点_标点”;以问号 ?为例,即 “ ?_?”;更改后, 变为“ ?”即可。 特别注意省略号,因为 Claws标注后的省略号及其标注显示为“ ._.._.._.”其中第一个“ ._. ”和后面两个“._.._.”之间换行了,这样在添加标志是会造成默认三个英语句号标识。两种解决方案: 1. 替换句号之前查找“._.\n ._.._.”(选择正则表达式一栏),替换成“ --- ”( 什么符号都可以,自己知道意思即可,但整个语料库建设里一般会涉及多人,所以大家要统一) ;2. 如果先替换句号,就直接查找“. \n .. ”(选择正则表达式一栏),替换成“ --- ”。建议所有查找和替换操作都从文本中复制以免格式不匹配。中文标点符号全部转成英文状态下的半角格式并去除其词性标注/w。(ICTCLAS标注后的中文标点及其标注显示为“标点 /w”...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

平行语料库制作流程

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部