信息抽取技术及前景浅析李荣国 072529关键词:信息抽取 信息处理技术 分词 句法及语义分析摘要: 面对实际应用和潜在需求,建立自适应的、可移植的系统是未来信息抽取的进展方向,立足于目前已有的讨论成果,建立受测试集驱动、通过机器学习构建有监督机制的规则库并在此基础上实现知识猎取将成为一条进展的思路。一、信息抽取概述随着计算机在各个领域的广泛普及和 Internet 的迅猛进展,社会的信息总量呈爆炸式的指数增长。信息总量的量级,从 20 世纪 90 年代初的 MB(106)过渡到 GB(109)再到现在的 TB(1012)。进入 21 世纪后,全世界信息总量更是以每三年增加一倍的速度递增。据统计,在这些海量信息中,有 60%~70%是以电子文档的形式存在。为了应对信息爆炸带来的挑战,迫切需要一些自动化的技术帮助人们在海量信息中迅速找到自己真正需要的信息。信息抽取(Information Extraction,IE)正是解决这个问题的一种方法。信息抽取技术是指从一段自然语言文本中抽取指定的事件、事实信息,并以结构化形式描述信息,供信息查询、文本深层挖掘、自动回答问题等应用,为人们提供有力的信息猎取工具。也就是从文本中抽取用户感兴趣的事件、实体和关系,被抽取出来的信息以结构化的形式描述,然后存储在数据库中,为情报分析和检测、比价购物、自动文摘、文本分类等各种应用提供服务。广义上信息抽取技术的抽取对象并不局限于文本,其他形式存在的信息也可以作为信息抽取的对象,而抽取的结果则变为相应的结构化数据。后文如无说明只涉及中文文本信息抽取。信息抽取技术的最终目的就是开发有用的信息抽取系统,从自由文本中抽取、分析信息,从而得到有用的、用户感兴趣的信息。信息抽取技术在军事、经济、医学、科学讨论等领域有着极大的应用空间。 与信息抽取密切相关的一项讨论是信息检索(Information Retrieval,IR)技术。信息抽取并不同与信息检索,两种的功能、处理技术、适用领域均不相同,但它们俩是可以互补的为了处理海量文本,信息抽取系统通常以信息检索系统(如文本过滤)的输出作为输入;而信息抽取技术又可以用来提高信息检索系统的性能。二者的结合能够更好地服务与用户的信息处理需求。另外,和信息抽取相关的技术还有自动文摘、文本理解、自然语言生成机器翻译和数据挖掘等。二、信息抽取系统的构建在信息抽取技术中,对自由文本进行信息抽取需要运用许多自然语言处理( NLP)知识,所以自由文本信息抽取...