文本信息分析VIP专享VIP免费

下载本文档

阅读 86
下载 23
格式 pdf
大小 696.54 KB
约10页
2024-11-28 发布于天津市
收藏
评论
点赞(0)
海报
举报

1/10页

2/10页

3/10页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

/10

文本预览下载提示常见问题

文本信息分析 1 . 中文文本信息过滤技术研究 1 .1 文本过滤技术文本信息过滤是指依据一定的标准和运用一定的工具从大量的文本数据流中选取用户需要的信息或剔除用户不需要的信息的方法[1]。文本过滤和文本检索及文本分类有很大的相似之处。 1 .1 .1 文本信息过滤技术发展 1958 年Luhn 提出的“商业智能机器”是信息过滤的最早雏形。Luhn 所提出的构想涉及了信息过滤系统的每一个方面，为后来的文本过滤做了很好的铺垫。1982 年，Dernzing首次提出了“信息过滤”的概念，在他描述的例子中，可以通过“内容过滤器”识别出紧急邮件和一般邮件，以此提示对信息内容进行有效控制。1987 年，Malone 等人提出了三种信息选择模式，即认知、经济、社会。认知模式相当于“基于内容的信息过滤”；经济模式来自于 Denning 的“阈值接受思想”；社会模式是他最重要的贡献，即“协同过滤”。1989 年，美国消息理解大会(Message Understand Conference)成立，将自然语言处理技术引入到信息研究中来，极大地推动了信息过滤的发展。 20 世纪 90 年代以来，著名的文本检索会议 TREC（Text Retrieval Conference）每年都把文本过滤当作一个很重要的一个研究内容，这很大程度上促进了文本过滤技术的发展。从TREC-4 开始，增加了文本过滤的项目；从1997 年TREC-6 开始，文本过滤主要任务确定下来；TREC-7 又将信息分为自适应过滤、批过滤和分流过滤，使得对信息过滤的研究更加深入。随着信息过滤需求的增长和研究的深入发展，其他领域的许多技术被应用到文本过滤中来，并取得了很好的效果。如信息检索中的相关反馈、伪相关反馈以及文本检索中的向量空间模型的相关技术，文本分类和聚类技术，机器学习以及语言底层的处理技术都被应用到信息过滤中来，极大地拓展了信息过滤的研究广度，推动着信息过滤理论研究与技术应用不断走向完善与成熟。 1 .1 .2 中文本过滤技术中文文本过滤技术在最近几年得到了业内人士的普遍关注。国内对于信息过滤研究起步较晚，但是目前发展也很快，尤其是随着信息安全、信息定制等应用在国内的兴起，对信息过滤技术的研究也得到人们普遍的重视。其中，中科院计算所、复旦大学都曾参加了 TREC评测中的信息过滤任务，取得了较好的成绩；哈工大、南开大学等重点科研单位也已经开始对信息过滤进行研究。然而，基于目前提出的中文文本过滤模型开发出的试验系统在不同的领域达到的过滤精度也不相同。由...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

文本信息分析

文本信息分析 1

中文文本信息过滤技术研究 1

1 文本过滤技术文本信息过滤是指依据一定的标准和运用一定的工具从大量的文本数据流中选取用户需要的信息或剔除用户不需要的信息的方法[1]

文本过滤和文本检索及文本分类有很大的相似之处

1 文本信息过滤技术发展 1958 年Luhn 提出的“商业智能机器”是信息过滤的最早雏形

Luhn 所提出的构想涉及了信息过滤系统的每一个方面，为后来的文本过滤做了很好的铺垫

1982 年，Dernzing首次提出了“信息过滤”的概念，在他描述的例子中，可以通过“内容过滤器”识别出紧急邮件和一般邮件，以此提示对信息内容进行有效控制

1987 年，Malone 等人提出了三种信息选择模式，即认知、经济、社会

认知模式相当于“基于内容的信息过滤”；经济模式来自于 Denning 的“阈值接受思想”；社会模式是他最重要的贡献，即“协同过滤”

1989 年，美国消息理解大会(Message Understand Conference)成立，将自然语言处理技术引入到信息研究中来，极大地推动了信息过滤的发展

20 世纪 90 年代以来，著名的文本检索会议 TREC（Text Retrieval Conference）每年都把文本过滤当作一个很重要的一个研究内容，这很大程度上促进了文本过滤技术的发展

从TREC-4 开始，增加了文本过滤的项目；从1997 年TREC-6 开始，文本过滤主要任务确定下来；TREC-7 又将信息分为自适应过滤、批过滤和分流过滤，使得对信息过滤的研究更加深入

随着信息过滤需求的增长和研究的深入发展，其他领域的许多技术被应用到文本过滤中来，并取得了很好的效果

如信息检索中的相关反馈、伪相关反馈以及文本检索中的向量空间模型的相关技术，文本分类和聚类技术，机器学习以及语言底层的处理技术都被应用到信息过滤中来，极大

您可能关注的文档

小辰6 + 关注: 实名认证
内容提供者

出售各种资料和文档

收藏店铺进入空间

文本信息分析VIP专享VIP免费

文本信息分析

您可能关注的文档

相关文档

热门下载

相关标签