信息抽取技术及前景浅析李荣国072529关键词:信息抽取信息处理技术分词句法及语义分析摘要:面向实际应用和潜在需求,建立自适应的、可移植的系统是未来信息抽取的发展方向,立足于目前已有的研究成果,建立受测试集驱动、通过机器学习构建有监督机制的规则库并在此基础上实现知识获取将成为一条发展的思路
一、信息抽取概述随着计算机在各个领域的广泛普及和Internet的迅猛发展,社会的信息总量呈爆炸式的指数增长
信息总量的量级,从20世纪90年代初的MB(106)过渡到GB(109)再到现在的TB(1012)
进入21世纪后,全世界信息总量更是以每三年增加一倍的速度递增
据统计,在这些海量信息中,有60%~70%是以电子文档的形式存在
为了应对信息爆炸带来的挑战,迫切需要一些自动化的技术帮助人们在海量信息中迅速找到自己真正需要的信息
信息抽取(InformationExtraction,IE)正是解决这个问题的一种方法
信息抽取技术是指从一段自然语言文本中抽取指定的事件、事实信息,并以结构化形式描述信息,供信息查询、文本深层挖掘、自动回答问题等应用,为人们提供有力的信息获取工具
也就是从文本中抽取用户感兴趣的事件、实体和关系,被抽取出来的信息以结构化的形式描述,然后存储在数据库中,为情报分析和检测、比价购物、自动文摘、文本分类等各种应用提供服务
广义上信息抽取技术的抽取对象并不局限于文本,其他形式存在的信息也可以作为信息抽取的对象,而抽取的结果则变为相应的结构化数据
后文如无说明只涉及中文文本信息抽取
信息抽取技术的最终目的就是开发实用的信息抽取系统,从自由文本中抽取、分析信息,从而得到有用的、用户感兴趣的信息
信息抽取技术在军事、经济、医学、科学研究等领域有着极大的应用空间
与信息抽取密切相关的一项研究是信息检索(InformationRetrieval,IR)技术
信息抽取并不同与信