电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

浅析信息抽取技术及前景VIP免费

浅析信息抽取技术及前景_第1页
1/10
浅析信息抽取技术及前景_第2页
2/10
浅析信息抽取技术及前景_第3页
3/10
信息抽取技术及前景浅析李荣国072529关键词:信息抽取信息处理技术分词句法及语义分析摘要:面向实际应用和潜在需求,建立自适应的、可移植的系统是未来信息抽取的发展方向,立足于目前已有的研究成果,建立受测试集驱动、通过机器学习构建有监督机制的规则库并在此基础上实现知识获取将成为一条发展的思路。一、信息抽取概述随着计算机在各个领域的广泛普及和Internet的迅猛发展,社会的信息总量呈爆炸式的指数增长。信息总量的量级,从20世纪90年代初的MB(106)过渡到GB(109)再到现在的TB(1012)。进入21世纪后,全世界信息总量更是以每三年增加一倍的速度递增。据统计,在这些海量信息中,有60%~70%是以电子文档的形式存在。为了应对信息爆炸带来的挑战,迫切需要一些自动化的技术帮助人们在海量信息中迅速找到自己真正需要的信息。信息抽取(InformationExtraction,IE)正是解决这个问题的一种方法。信息抽取技术是指从一段自然语言文本中抽取指定的事件、事实信息,并以结构化形式描述信息,供信息查询、文本深层挖掘、自动回答问题等应用,为人们提供有力的信息获取工具。也就是从文本中抽取用户感兴趣的事件、实体和关系,被抽取出来的信息以结构化的形式描述,然后存储在数据库中,为情报分析和检测、比价购物、自动文摘、文本分类等各种应用提供服务。广义上信息抽取技术的抽取对象并不局限于文本,其他形式存在的信息也可以作为信息抽取的对象,而抽取的结果则变为相应的结构化数据。后文如无说明只涉及中文文本信息抽取。信息抽取技术的最终目的就是开发实用的信息抽取系统,从自由文本中抽取、分析信息,从而得到有用的、用户感兴趣的信息。信息抽取技术在军事、经济、医学、科学研究等领域有着极大的应用空间。与信息抽取密切相关的一项研究是信息检索(InformationRetrieval,IR)技术。信息抽取并不同与信息检索,两种的功能、处理技术、适用领域均不相同,但它们俩是可以互补的为了处理海量文本,信息抽取系统通常以信息检索系统(如文本过滤)的输出作为输入;而信息抽取技术又可以用来提高信息检索系统的性能。二者的结合能够更好地服务与用户的信息处理需求。另外,和信息抽取相关的技术还有自动文摘、文本理解、自然语言生成机器翻译和数据挖掘等。二、信息抽取系统的构建在信息抽取技术中,对自由文本进行信息抽取需要运用许多自然语言处理(NLP)知识,所以自由文本信息抽取系统的构建是比较复杂和困难的。在信息抽取系统的构建过程中,最重要的是如何获得抽取模式(ExtractionPattern)。根据抽取模式获得的方式的不同,信息抽取系统的构建主要有两种方法,即知识工程方法(KnowledgeEngineeringApproach)和机器学习方法(MachineLearningApproach,也叫自动训练方法automaticallytrainablesystem)。知识工程(KE)方法依靠人工编写抽取模式,使系统能处理特定知识领域的信息抽取问题。这种方法要求编写抽取模式的知识工程师对特定知识领域有深入的了解,具有性能好和易开发等优点。这种方法一般用于构建具有以下特点的系统:1.已有相应的资源,如词典、表等;2.已经有了可用的规则;3.数据训练代价大或者不容易实现;4.抽取的规格变化频繁;5.性能要求高。机器学习(ML)方法是利用机器学习技术让信息抽取系统通过训练文本来获得抽取模式,实现特定领域的信息抽取功能。任何对特定知识领域比较熟悉的人都可以根据事先约定的规则来标记训练文本。利用这些训练文本训练后,系统能够处理没有标记的新的文本这种方法构建的系统具有的特点刚好与用KE方法的系统特点相反。知识工程方法的设计初始阶段较容易,但是要实现较完善的规则库的过程往往比较耗时耗力。自动学习方法抽取规则的获取是通过学习自动获得的,但是该方法需要足够数量的训练数据,才能保证系统的抽取质量。下面介绍以下两种信息抽取结构:通用信息抽取结构和BareBones结构。通用信息抽取结构:Hobbs提出的,也叫Hobbs结构。将信息抽取系统抽象为“级联的转换器或模块集合,利用手工编制或自动获得的规则在每一步过滤掉不相关的信息,增加新的结构信息”。其组成如图1所示。图1信息抽取过...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

浅析信息抽取技术及前景

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部