基于NET搜索引擎设计与实现VIP专享VIP免费

下载本文档

阅读 118
下载 5
格式 pdf
大小 2.97 MB
约56页
2024-11-10 发布于河南
收藏
评论
点赞(0)
海报
举报

1/56页

2/56页

3/56页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

/56

文本预览下载提示常见问题

大连理工大学硕士学位论文基于ASP.NET搜索引擎设计与实现姓名：苏晓宇申请学位级别：硕士专业：软件工程指导教师：覃振权20091216大连理工大学专业学位硕士学位论文摘要互联网的快速发展使得网络中的信息量越来越大，普通用户对信息的检索越来越困难。搜索引擎的出现大大的改善了这种情况，互联网的快速发展也使搜索引擎不断的发展着，而搜索引擎逐渐转向商业化运行，使得搜索引擎的技术细节越来越隐蔽。本文以搜索引擎的三个基本功能：网页爬取、网页处理、提供搜索服务为出发点，并按这三个功能将系统进行功能模块划分，以ASP．NET作为技术基础，实现了一个搜索引擎。网页中存在着大量链接的同时也具有众多的冗余信息一例如，导航信息条、广告栏、版权信息等，这些冗余信息大大限制了网页的可用性，因此在本文中网页爬取的重点就是如何快速的提取这些链接，而网页处理的重点则是去除网页中的冗余信息。本文利用正则表达式的灵活性实现了对网页中链接地址的提取和网页中冗余信息的剔除。在获取链接地址进行网页爬取的同时对网页信息进行提取，同时基于最大化匹配算法实现中文分词算法，并利用DotLucene提供的接口成功实现对提取网页信息的索引，经过网页信息的提取和分词预处理，检索过程建立的索引更小，检索的效率和结果更加理想，并基于此索引为用户的查询请求提供服务。基于互联网个性化的发展思路，本文为用户设计了建议网站功能，用户向搜索引擎共享自己的网站，管理员审查后将用户建议网站添加至爬取开始列表，实现用户参与搜索引擎工作。通过系统实现可以看到，系统可以稳定的运行，基本符合搜索索引擎原理的探索和系统实现具有一定的意义。关键词：搜索引擎；网页爬取；最大匹配分词基于ASP．NET搜索引擎设计与实现DesignandRealizationofSearchEngineBasedonASP．NETAbstractWiththerapiddevelopmentoftheIntemet,ithasbecomethelargestinformationsourceinourlife．Informationsearchandretrievalforordinaryusersbecomemoreandmoredifficult．1heemergenceofsearchenginesgreatlyimprovesthissituation．SearchenginehasmadeaconstantdevelopmentwimthedevelopmentoftheInternet，butitsgraduallyshiftingtocommercialoperationmakesthetechnicaldetailsofsearchenginemoreandmorehidden．WiththestartpointofthreebasicrequirementsofsearchenginesasWebSpider,Pages’ProcessingandProvidingServices，thispaperdividesthesystemintothreefunctionalmodules，andbasedonASP．NET，thispaperexplorestheprincipleandrealizesonesearchengines．Inwebpages，therearealargenumberoflinks，howtofetchouttheselinksfastiSthekeypointoftheWebSpiderinthispaper．Atthesanletime，webpagescontaina10tofredundantinformation,navigationtools，advertisingfields，copyrightinformationandsoon,nleseredundantinformationlimittheavailabilityofinformation．Sohowtoremovetheredundantinformationisthefocusofthepageprocessing．Asregularexpressions’flexibility，thispaperusesregularexpressionstoachievetheextractionoflinksandremoveredundantinformationinwebpages．Extractionofpages’informationisdoingwhileWebSpiderisfetchingpages．Afterthat,thispaperrealizesChineseWordSegmentationbasedonMaximumMatching，andachievesindexingofpages’informationwiththeinterfaceofDotLucene．Aftertheinformationextractionandsegmentationpre-processing，theindexiSmuchsmallerand也eretrievalefficiencyandresults’accuracyismoresatisfactory．Basedonthisindex，systemprovidesservicesfortheusers’queryrequest．Duetothedevelopmentofpersonalization，thispaperdesignrecommendationsforuserstosharetheirownusefulwebsites，afterthereviewoftheproposedsitefromadministrator，recommendedsitesCallbethestartoftheWebSpider．Throughtherealization,thesystemCanrunstableinlinewiththerequirementsofsearchengineswhichachievecertainsignifica...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

基于NET搜索引擎设计与实现

大连理工大学硕士学位论文基于ASP

NET搜索引擎设计与实现姓名：苏晓宇申请学位级别：硕士专业：软件工程指导教师：覃振权20091216大连理工大学专业学位硕士学位论文摘要互联网的快速发展使得网络中的信息量越来越大，普通用户对信息的检索越来越困难

搜索引擎的出现大大的改善了这种情况，互联网的快速发展也使搜索引擎不断的发展着，而搜索引擎逐渐转向商业化运行，使得搜索引擎的技术细节越来越隐蔽

本文以搜索引擎的三个基本功能：网页爬取、网页处理、提供搜索服务为出发点，并按这三个功能将系统进行功能模块划分，以ASP．NET作为技术基础，实现了一个搜索引擎

网页中存在着大量链接的同时也具有众多的冗余信息一例如，导航信息条、广告栏、版权信息等，这些冗余信息大大限制了网页的可用性，因此在本文中网页爬取的重点就是如何快速的提取这些链接，而网页处理的重点则是去除网页中的冗余信息

本文利用正则表达式的灵活性实现了对网页中链接地址的提取和网页中冗余信息的剔除

在获取链接地址进行网页爬取的同时对网页信息进行提取，同时基于最大化匹配算法实现中文分词算法，并利用DotLucene提供的接口成功实现对提取网页信息的索引，经过网页信息的提取和分词预处理，检索过程建立的索引更小，检索的效率和结果更加理想，并基于此索引为用户的查询请求提供服务

基于互联网个性化的发展思路，本文为用户设计了建议网站功能，用户向搜索引擎共享自己的网站，管理员审查后将用户建议网站添加至爬取开始列表，实现用户参与搜索引擎工作

通过系统实现可以看到，系统可以稳定的运行，基本符合搜索索引擎原理的探索和系统实现具有一定的意义

关键词：搜索引擎；网页爬取；最大匹配分词基于ASP．NET搜索引擎设计与实现DesignandRealizationofSearchEngineBasedonASP．NETAbstractWiththerapiddevel

您可能关注的文档

文泉书屋 + 关注: 实名认证
内容提供者

热爱教学事业，对互联网知识分享很感兴趣

收藏店铺进入空间

基于NET搜索引擎设计与实现VIP专享VIP免费

基于NET搜索引擎设计与实现

您可能关注的文档

相关文档

热门下载

相关标签