1上海深度网络(2013-06)信息膨胀与搜索技术目前全文搜索可选择方案以及问题深度搜索技术的特点和优势深度搜索典型使用案例公司介绍2我有100年以来出版内容的电子数据我有50年以来所有报道的新闻电子稿我有20年来所有发帖内容,而且每天以数万条增长馆藏数百万的书都已经可以在线阅读了我有全世界所有工业设备的详细资料我有十年来的阅读材料,样卷,教材…我的笔记本,可以存放一个小型图书馆数据34搜索海量数据有用信息存储不是问题,但只有搜索,才能将从数据中找到有用的信息只要是提供信息服务,就注定需要有提供对信息检索的方法5传统的数据库:开源搜索引擎:商业搜索引擎:6传统数据库具有众多优点:产品数量众多,可选择余地很大。成熟,可靠,稳定。具有大量相关的开发人员,易于开发。具有丰富的相关资料。但…尽管可以达到功能上要求,关系数据库并不是为了全文搜索准备的。约多的数据量和少量并发就可以耗尽系统资源,这样做无异于南辕北撤。以LUCENE为代表的全文搜索引擎Apache基金会项目为全文搜索目的设计的倒排的索引格式多种方式的接口开源7真正全文搜索的系统,现在生活很幸福?我有大的并发请求。我有海量的数据。我需要良好的可伸缩性。我需要可定制高质量的结果排序。我不断的有数据要更新。坏了一个硬件不能终止服务。和LUCENE的日子还幸福吗?8上周就更新了,怎么还不能找到?这篇文章一点都不相关怎么排最前面?昨天有的,今天怎么被删除了?我的数据并不在网站上,该如何搜索?什么也不用做,但什么也不知道。910信息存储信息匹配实时更新搜索自动主题词分类相似关联应用程序接口用户界面接口各行业应用教育企业应用政府部门……多语言处理多文档格式处理实时自动重复检测理基于基因组学:从信息到知识基因组作图(genomemapping)测序(sequencing)基因识别(geneidentification)模式生物(modelorganism)深度搜实现的重要理论创新将香农理论(SHANNONTHEORY)和向量空间(VECTORSPACEMODEL)提升到了新的高度多维索引信息单元搜索片段搜索细粒度信息识别1112多种模式的数据存储方式精心设计的内存模型可插件话的积分排序算法可搜索单词,长句,段落,布尔逻辑.多重分词,交叉索引,多维检索。快速更新高并发能力,高速度。可快速扩充的搜索集群高可用性,多点热备。支持多种语言搜索基于基因组学开发的深度系统真正地不受语言的约束。任何语言,无论英语、日语、中文或者阿拉伯语、数学符号、化学方程式、音符或者其他重复的、逻辑符号集,都无需语法或者词典的帮助下被搜寻到支持主流各种文档的存储与搜索MSOffice所有类型word,excel,…PDF各种版本,邮件,xml,甚至图片等主流文件格式。13最新的新闻需要排最前面,论文就不要这样。论坛回复和主贴的长度差好多,长度因子要调整。这是付费的广告,我要将其置顶。搜索的三个词中,我觉得第二个词特别重要。从人民日报返回的新闻重要性最高。需要排前面。你可以按你想要的方式进行排序14搜索压力特别大,高峰期每秒上百个。库很大(>1亿文档),但搜索压力很小。库很大(>1亿文档),而且搜索压力有时也很大(>100请求/秒)。我的库不大,搜素压力也不大。深度搜的简单配置可满足不同要求并在最大程度的节省硬件资源。15对于搜索中华人民共和国,包含中华人民,人民共和国的内容也挺相似的。硫酸的结果里面要有硫酸铜但要排序到后面才好。计算机的结果里面匹配电脑也必须出现,但不要排前面。这么大一段话,要能根据主要意思搜索。这篇文章我想找找与其相似的文章。简体和繁体在意义上其实没啥差别。...16深度搜包含了更多的中文优化。我们出版社每月才会出版一份刊物,每月新增我们报社每天都会出版一份报纸,每天新增论坛中新发的贴需要在几分钟内就能被搜索,几分钟内新增。微博?几秒钟吧...17深度搜适用各种更新需求基于云平台的设计,可以弹性的增加和减少服务器。访问量大了,需要加机器平衡负载了。数据量大了,需要加机器增加容量了。为了高可用性,关键节点需要做了备份。...