NutchCrawler工作流程及文件格式详细分析Crawler和Searcher两部分被尽是分开,其主要目的是为了使两个部分可以布地配置在硬件平台上,例如Crawler和Searcher分别被放置在两个主机上,这样可以极大的提高灵活性和性能
一、总体介绍:1、先注入种子urls到crawldb2、循环:generate从crawldb中生成一个url的子集用于抓取fetch抓取上一小的url生成一个个segmentparse分析已抓取segment的内容update把已抓取的数据更新到原先的crawldb3、从已抓取的segments中分析出link地图4、索引segment文本及inlink锚文本二、相关的数据结构:CrawlDB●CrawlDb是一个包含如下结构数据的文件:●CrawlDatum:●Status:{db_unfetched,db_fetched,db_gone,linked,fetch_success,fetch_fail,fetch_gone}爬虫Crawler:Crawler的工作流程包括了整个nutch的所有步骤--injector,generator,fetcher,parseSegment,updateCrawleDB,Invertlinks,Index,DeleteDuplicates,IndexMergerCrawler涉及的数据文件和格式和含义,和以上的各个步骤相关的文件分别被存放在物理设备上的以下几个文件夹里,crawldb,segments,indexes,linkdb,index五个文件夹里
那么各个步骤和流程是怎么,各个文件夹里又是放着什么呢
观察Crawler类可以知道它的流程
/nutchcrawlurls-dir~/crawl-depth4-threads10-topN20001、Injectorinjector=