[文章作者:张宴本文版本:v1
0最后修改:2008
27转载请注明原文链接:http://blog
com/post/360/]前言:本文阐述的是一款经过生产环境检验的千万级数据全文检索(搜索引擎)架构
本文只列出前几章的内容节选,不提供全文内容
在DELLPowerEdge6850服务器(四颗64位InterXeonMP7110N处理器/8GB内存)、RedHatAS4Linux操作系统、MySQL5
26、MyISAM存储引擎、key_buffer=1024M环境下实测,单表1000万条记录的数据量(这张MySQL表拥有int、datetime、varchar、text等类型的10多个字段,只有主键,无其它索引),用主键(PRIMARYKEY)作为WHERE条件进行SQL查询,速度非常之快,只耗费0
出自俄罗斯的开源全文搜索引擎软件Sphinx,单一索引最大可包含1亿条记录,在1千万条记录情况下的查询速度为0
x秒(毫秒级)
Sphinx创建索引的速度为:创建100万条记录的索引只需3~4分钟,创建1000万条记录的索引可以在50分钟内完成,而只包含最新10万条记录的增量索引,重建一次只需几十秒
基于以上几点,我设计出了这套搜索引擎架构
在生产环境运行了一周,效果非常不错
有时间我会专为配合Sphinx搜索引擎,开发一个逻辑简单、速度快、占用内存低、非表锁的MySQL存储引擎插件,用来代替MyISAM引擎,以解决MyISAM存储引擎在频繁更新操作时的锁表延迟问题
另外,分布式搜索技术上已无任何问题
一、搜索引擎架构设计:1、搜索引擎架构图:2、搜索引擎架构设计思路:(1)、调用方式最简化:尽量方便前端Web工程师,只需要一条简单的SQL语句“SELECT
FROMmyisam_tableJOINsphinx_tableON(sphinx