基于数据挖掘的葡萄酒质量识别 我们知道,传统的葡萄酒鉴别靠感觉器官的品尝来判断其质量的好坏,这就必须要求品尝者是训练有素的品酒专家。但感官品尝结果容易受各种因素的影响。随着科学技术的发展,葡萄酒质量品鉴成了一项可以替代性的工作,不在局限于酿酒工作者的工作才能完成。因此,将数据挖掘方法用于葡萄酒评级早已被各国所采用。下面主要基于数据挖掘的分类和回归方法对葡萄酒质量的鉴别做一个简单的分析与判断。 1.数据挖掘理论方法论述 1.1主成分回归 在数据处理中,经常会遇到高维数据组,由于数据维数高,变量多,而且变量间往往存在相关关系,因此很难抓住他们的相关关系信息。在实际问题中,研究多变量问题是经常遇到的,再加上变量指标之间有一定的相关性,这势 必增 加了问题的复 杂 性,主成分分析就是设 法将原 来指标重 新 组合 成一组新 的互 相无 关的较 少 的综 合 指标来代替原 来的指标,同 时 根 据实际需 要从 中可取 几 个较 少 的综合 指标尽 可能多的反 映 原 来指标的信息。这种将多个变量化 为 少 数互 相无 关的综合 指标的统计 方法称 为 主成分分析。 主成分分析就是设 法将原 来众 多具 有一定相关性的变量重 新 组合 成一组新的相互 无 关的综 合 指标来代替,通 常数学上的处理就是将原 来p 个变量作线 性组合 ,作为 新 的综 合 指标,但是这种线 性组合 ,需 要加以限制 。假 设 第 一个综 合 指标记 为1F ,自 然 希 望1F 尽 可能多的反 映 原 来指标的信息,这里 最 经典 的方法是用1F 的方差 来表 达 ,即)(1FVar越 大 ,表 示1F 包 含 的信息越 。因此所有线 性组合中所选 取 的1F 应 该 是方差 最 大 的,故 将1F 称 为 第 一主成分,如 果1F 不足 以代表原 来p 个指标的信息,在满 足0),(21FFCov的条 件 下,再考 虑 选 取2F 作为 第 二个主成分,同 理可以构 造 第 三 ,四 ,.....,第 p 个主成分。 ....2211ppiiiiXaXaXaF 要求: ( 1);1...22221piiiaaa ( 2)不相关与)(jiFFji 求得 X 的主成分为 协 房 阵 的特 征 向 量为 系数的线 性组合 。 得 到主成分,提 取所需 要的前 几 个主要成分后 ,回归的过 程 与线 性回归是一致 的。 只 是自 变量变成了选 取 的主成分,因变量不变。 1....