中文文本自动校对系统的研究与实现摘要:随着“互联网+”时代的到来和快速发展,新媒体(微博、微信公众号、博客、论坛、新闻客户端等)已成为人们生活中不可分割的一部分,很多新闻媒体平台,每天原创新闻发布量巨大,采用人工审核已经不切实际
因此,高速处理海量内容的中文文本自动校对系统的研究具有重要的实际意义和广泛的应用领域
本文对中文文本的校对内容进行了分析,将其分为两大类,分别为错别字和敏感信息
本文采用政府网站及今日头条的文本内容作为训练语料,利用n-gram模型对分词后的语料进行统计分析形成二元知识模型库与上下文语境库,再构建错别字混淆集,然后通过计算目标词对应的混淆集中的混淆词在二元知识模型库与上下文语境库中的支持度,来实现中文文本自动校对系统的自动查错与纠错
该设计方案目前已成功应用于一些政府网站,现已部署五台服务器,每台服务器每天能够处理一百万万篇文章,抽取分析结果显示,该系统的召回率为78
9%,准确率为85
6%,具有较好的应用前景
关键字:n-gram模型,混淆集,支持度,自动校对ResearchandImplementationofChineseTextAutomaticProofreadingSystemAbstract:Withtheadventandrapiddevelopmentofthe“Internet+”era,newmedia(microblog,WeChatpublicaccount,blogs,forums,newsclients,etc
)havebecomeanintegralpartofpeople’slives
Manynewsmediaplatformshavehugeamountsoforiginalnewsreleaseseveryday,somanualreviewisnotpractical
Therefore,thestud