习题一:1。讨论是否每个以下活动是一个数据挖掘的任务。(a)将公司的客户根据他们的性别。不。这是一个简单的数据库查询。(b)将公司的客户根据他们的盈利能力。不。这是一个会计计算,紧随其后的是应用程序一个阈值。然而,预测的盈利能力客户将数据挖掘。(c)计算一个公司的总销售额。不。再次,这是简单的会计。(d)排序一个学生数据库基于学生身份证号码。不。再一次,这是一个简单的数据库查询。(e)预测结果掷双骰子(公平)。不。因为模具是公平的,这是一个概率计算。如果死是不公平的,我们需要估计的概率每个结果的数据,那么这是更像的问题认为数据挖掘。然而,在这种特定的情况下,解决方案这个问题是由数学家很长时间前,因此,我们不会认为它是数据挖掘。(f)预测未来股价的公司使用历史记录。是的。我们将尝试创建一个模型,该模型可以预测连续价值的股票价格。这是一个的例子数据挖掘领域称为预测模型。我们可以使用回归建模,尽管在许多领域的研究者开发了各种各样的技术来预测时间吗系列。(g)监测病人的心率异常。是的。我们可以建立一个模型,心脏的正常行为率和不同寻常的心行为发生时发出警报。这将涉及到数据挖掘的区域称为异常检测。这也可以被认为是一个分类问题如果我们有正常和异常的心行为的例子。(h)监测地震活动的地震波。是的。在本例中,我们将构建一个不同类型的模型地震波与地震相关的活动和行为提高警报当其中一个不同类型的地震活动被观察到。这是数据挖掘领域的一个例子被称为分类。(i)提取声波的频率。不。这是信号处理。2.假设你被录用,作为一个互联网数据挖掘咨询顾问搜索引擎公司。描述数据挖掘可以帮助公司通过给具体的例子如何技术,如聚类,分类、关联规则挖掘和异常检测可以应用。答:以下是可能的答案的例子。•聚类可以把结果与类似的主题用户在一个更简洁的形式,例如通过报告集群中的十大最频繁的词语。•分类可以将结果分配给预定义的类别等“体育”、“政治”,等等。•顺序关联分析可以发现,某些查询遵循一定的概率高的其他查询,允许更高效的缓存。•异常检测技术可以发现不寻常的模式用户流量。,这一个话题突然变得太多更受欢迎。可以调整广告策略这种发展的优势。3.为每个数据集后,解释是否数据隐私是一个重要的问题。(a)调查 1900 年至 1950 年收集的数据。没有(b)的 IP 地址和访问时间的网络用户访问你的网站。是的(c)从地球轨道卫星图像。没有(d)的人的姓名和住址,电话本。没有(e)的姓名和电子邮件地址从网上...