1绪论1.2.2背景如今,飞机,作为一种日益普遍的出行方式,已经被大众接受。为了方便旅客出行,各大航空公司相应地推出网上订票,电话订票等服务。为了尽可能多赚钱,经常调整机票价格来吸引旅客购买。据我统计,一日之内有一个航班价格前后调整了7次,而且调整幅度较大。机票价格不仅与座位余量,是否节假日有关,也与天气等其他因素有关。针对纷繁复杂的航班信息,有很多代理平台整合了各大航空公司的机票信息,为人们订票提供方便快捷的服务,但同时还会收上一笔手续费,不同的平台手续费也不尽相同。如果旅客出行比较紧急,一般不会考虑价格,只要有票能走上就好。然而,在行程可以提前预知时,我们就会提前几个月进行订票操作,这时出于省钱的角度,我们往往会想买到最低价格的飞机票。1.2.3意义作为旅客,当然想在能买到机票的基础上尽量节省一部分开支,然而,因为航班众多,信息过于复杂,单纯靠人工筛选,逐个寻找每个航线在近几个月内,在不同平台上的价格,会费时费力,而且很难寻找到最划算的机票价格,甚至有可能错过合适的机票。若有个系统可以自动帮助旅客盯着各大平台的订票系统,并告诉旅客买哪天哪个平台的哪个航班票价是最划算的,能省去旅客不少的麻烦,节省了大量的筛选时间。其次,本研究对于民航监管部门也有很重要的意义。每天各家航空公司的航班信息数量太多,有的航空公司为了抢夺客户打价格战,用低廉的票价吸引客户,侵犯其他航空公司的利益,但由于人力有限可能不会及时监管和处理。本文的研究将会给相关的监管部门进行思路上启发,能对他们构建一个机票价格实时监控系统起到帮助作用。最后,本研究对于各大民航公司和机票代理网站也有参考意义。民航部门可以根据市场变化实时地调整价格数据,使利润最大化。各大代理网站也可以根据其他平台的数据调整自身机票售卖的价格,从而吸引顾客购买,实现销售量上的突破。1.3国内外基本研究概况1.3.1总体概况随着网络信息的爆炸性增长,使用自动化工具来查找所需的信息,跟踪分析其使用模式已经变得十分必要。例如,如果用户希望在网上找到信息,则必须知道文件的确切地址,或者耐心地从导航页面找到链接所需的目的地。信息检索(IR)是从信息资源获取信息的活动。搜索引擎能从互联网上提取有价值的信息。搜索引擎由两个基本部分组成——一部分是网络爬虫,它在万维网(WWW)中查找,下载和解析内容;另一部分是数据挖掘工具,它从页面中提取关键词,按重要性排列文档并应答用户的查询。网络爬虫是一个程序,它通过跟踪网页的链接,收集超文本标记语言(HTML)页面。这个过程被称为网络爬行。集中式网页爬虫被用来收集网页,通过优先搜索爬虫边界和管理超链接探索过程来满足一些性能。我们可以将重点网络爬虫作为基础爬虫,涵盖了很多方法,比如基于关键词的方法,基于示例文档的方法,基于本体的方法,基于链接语义的方法,基于数据挖掘的方法等其他方法。90年代初,当时Google搜索到的页面也仅是整体网页数量的60%。这之中,爬虫在获取页面资源中起到很大的作用。聚焦类爬虫,往往具有准确抓取性,它是按一定顺序收集与页面有关的内容,剔除与内容无关的资源。对于垂直搜索引擎,快速过滤无关内容是决定所使用的爬虫准确性的关键。因此,选择合适的爬虫策略,是提高检索速度的关键。搜索算法的不断改进和成熟,使爬虫发展变得越来越智能化。尤其是1999年Rennic等人将机器学习方法引入到搜索策略中,大大提高了搜索的性能。1.3.2国外技术发展国外机票网站一般把超级搜索技术作为获取票价的主要方式。通过比较各大网站票价的数据,将票价输出。国际上2006年就广泛使用超级搜索技术进行爬取,比较知名的机票查找网站有:Siderstep,Mobissimo,Kayak等等。但因为价格是实时变化的,这种超级搜索不能反映出这种变化的趋势。国外网络爬虫技术发展飞速,为我们研究爬取机票提供了很多帮助。Gunjan和Snehlata提出了一种基于本体的互联网爬虫算法,该算法仅检索相关网站,并为抓取提供了最佳估计路径,有助于提高爬虫的性能。该算法的主要目的是处理信息路径和领域本体,根据用户需求找出最相关的网页内容和页面。用于...