1上海深度网络(2013-06)信息膨胀与搜索技术目前全文搜索可选择方案以及问题深度搜索技术的特点和优势深度搜索典型使用案例公司介绍2我有100年以来出版内容的电子数据我有50年以来所有报道的新闻电子稿我有20年来所有发帖内容,而且每天以数万条增长馆藏数百万的书都已经可以在线阅读了我有全世界所有工业设备的详细资料我有十年来的阅读材料,样卷,教材…我的笔记本,可以存放一个小型图书馆数据34搜索海量数据有用信息存储不是问题,但只有搜索,才能将从数据中找到有用的信息只要是提供信息服务,就注定需要有提供对信息检索的方法5传统的数据库:开源搜索引擎:商业搜索引擎:6传统数据库具有众多优点:产品数量众多,可选择余地很大
成熟,可靠,稳定
具有大量相关的开发人员,易于开发
具有丰富的相关资料
但…尽管可以达到功能上要求,关系数据库并不是为了全文搜索准备的
约多的数据量和少量并发就可以耗尽系统资源,这样做无异于南辕北撤
以LUCENE为代表的全文搜索引擎Apache基金会项目为全文搜索目的设计的倒排的索引格式多种方式的接口开源7真正全文搜索的系统,现在生活很幸福
我有大的并发请求
我有海量的数据
我需要良好的可伸缩性
我需要可定制高质量的结果排序
我不断的有数据要更新
坏了一个硬件不能终止服务
和LUCENE的日子还幸福吗
8上周就更新了,怎么还不能找到
这篇文章一点都不相关怎么排最前面
昨天有的,今天怎么被删除了
我的数据并不在网站上,该如何搜索
什么也不用做,但什么也不知道
910信息存储信息匹配实时更新搜索自动主题词分类相似关联应用程序接口用户界面接口各行业应用教育企业应用政府部门……多语言处理多文档格式处理实时自动重复检测理基于基因组学:从信息到知识基因组作图(genomemapping)测序(sequencing)基因识别(