中文智能搜索引擎龙其072349摘要飞速发展的 Internet 给用户提供了海量的信息资源,导致用户从爆炸性增长的信息中迅速获得需要的信息变得越来越困难
为了帮助用户快速准确地检索到所需的网络信息,网络搜索引擎的研究与开发已经成为当今网络信息检索的热点
本文通过搜索引擎概述及原理介绍中文智能搜索引擎,从中文分词技术;词性标注及词义分析;分类器设计检索模型;PageRank 排序技术;研究现状和发展趋势等内容对中文智能搜索引擎进行介绍
搜索引擎概述及原理搜索引擎是以 Web 页面为检索文档的信息检索系统,它的核心就是信息检索技术
广义地说,搜索引擎就是指在指互联网上能够响应用户提交的搜索请求,返回相应的查询结果信息的技术和系统
搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的
搜索引擎并不是真正地搜索互联网,它搜索的是预先整理好的网页索引数据库
一般来说,搜索引擎得原理可以看做三步:从互联网中抓取网页;建立索引数据库;在索引数据库中进行搜索排序
(1)互联网中抓取网页:通过网页搜索工具 Spider(蜘蛛)或 Robot(机器人)等自动访问互联网,沿着 URL 搜索,并把搜索到的信息带回搜索引擎
(2)建立索引数据库:通过对收集的网页信息进行分析,把这些相关信息进行分类索引建立索引数据库
(3)在索引数据库中进行搜索排序:通过 Web 服务端软件,获得用户输入关键词后,有搜索程序从网页数据库中找到符合该关键词的相关网页
为用户提供浏览界面下的查询信息
搜索引擎结构图中文智能搜索引擎1
中文搜索引擎中文搜索引擎是指以 Interent 网络上的中文信息为主要对象,提供信息的自动收集、自动过滤、自动索引中和检索导航等服务的搜索引擎
中文 Internet 搜索引擎的最关键组件是能够在海量中英文数据上进行