中文文本自动校对系统的研究与实现摘要:随着“互联网+”时代的到来和快速发展,新媒体(微博、微信公众号、博客、论坛、新闻客户端等)已成为人们生活中不可分割的一部分,很多新闻媒体平台,每天原创新闻发布量巨大,采用人工审核已经不切实际。因此,高速处理海量内容的中文文本自动校对系统的研究具有重要的实际意义和广泛的应用领域。本文对中文文本的校对内容进行了分析,将其分为两大类,分别为错别字和敏感信息。本文采用政府网站及今日头条的文本内容作为训练语料,利用n-gram模型对分词后的语料进行统计分析形成二元知识模型库与上下文语境库,再构建错别字混淆集,然后通过计算目标词对应的混淆集中的混淆词在二元知识模型库与上下文语境库中的支持度,来实现中文文本自动校对系统的自动查错与纠错。该设计方案目前已成功应用于一些政府网站,现已部署五台服务器,每台服务器每天能够处理一百万万篇文章,抽取分析结果显示,该系统的召回率为78.9%,准确率为85.6%,具有较好的应用前景。关键字:n-gram模型,混淆集,支持度,自动校对ResearchandImplementationofChineseTextAutomaticProofreadingSystemAbstract:Withtheadventandrapiddevelopmentofthe“Internet+”era,newmedia(microblog,WeChatpublicaccount,blogs,forums,newsclients,etc.)havebecomeanintegralpartofpeople’slives.Manynewsmediaplatformshavehugeamountsoforiginalnewsreleaseseveryday,somanualreviewisnotpractical.Therefore,thestudyoftheChinesetextautomaticproofreadingsystemforhigh-speedprocessingofmassivecontentshasimportantpracticalsignificanceandawiderangeofapplications.ThisarticleanalyzestheproofreadingcontentofChinesetextsandclassifiesthemintotwocategories,namelytyposandsensitiveinformation.Thearticleusesthetextofgovernmentwebsitesandheadlinestodayastrainingcorpus,usesthen-grammodeltoperformstatisticalanalysisonthesegmentedcorporatoformabinaryknowledgemodellibraryandcontextlibrary,thenBuildatypoconfusionset,andbycalculatingthesupportdegreeoftheconfusedwordsintheconfusionsetcorrespondingtothetargetwordinthebinaryknowledgemodellibraryandthecontextualcontextlibrary.ToachieveautomaticerrorcorrectionandcorrectionofChinesetextautomaticproofreadingsystem.Thedesignschemehasbeensuccessfullyappliedtosomegovernmentwebsites,fiveservershavebeendeployedandeachservercanprocessonemillionarticlesperday.Extractionanalysisshowedthattherecallrateofthesystemis78.9%andtheaccuracyrateis85.6%,whichhasagoodpracticalapplicationeffect.Keywords:N-grammodel,Confusionset,Supportdegree,Automaticproofreading1引言随着“互联网+”时代的到来和快速发展,新媒体(微博、微信公众号、博客、论坛、新闻客户端等)已成为人们生活中不可分割的一部分,很多新闻媒体平台,每天原创新闻发布量巨大,而新闻的时效性使其会在短时间内被各大媒体广泛转载转发,同时被数以亿计的网民所阅读。因此,新闻内容中如果存在错别字、政治类敏感词等不良信息,则有可能产生极其恶劣影响。以今日头条为例,今日头条每天的发布量高达50万条,采用人工审核是不切实际的。因此,必须在稿件发出前采用基于上下文语境的自动识别技术手段才能确保“及时、准确”发现问题、定位问题、解决问题。所以高速处理海量内容的中文文本自动校对系统的研究具有重要的实际意义和广泛的应用领域。此外,自动校对系统还有着深远的理论意义,自动校对研究多年来一直是自然语言领域的研究难题[1]。早在20世纪60年代,国外就开展了英文文本的自动校对研究[2][3],目前已取得了较高的准确率和召回率,并且部分研究已经成果化。中文自动校对发展相对较晚于90年代研究人员开始对中文文本自动校对方法开展研究和探索。目前国内有一些科技公司和高等院校或研究机构都投入了一定的人力和财力开展这方面的研究[4],其研究方法主要分为以下几类:基于机器学习的方法[5]...