SAS EM 实例进阶 Created by :Ning Gang ****************HP GDCC GAPSE 2008-12-29 1. SAS Enterprise Miner 简介 1.1. 数据挖掘简介 数据仓库的发展,为分析人员提供了在各种层次上、历史回溯的数据信息。对未来的信息要进行预测,这就演化出来数据挖掘技术。 数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 目前数据挖掘应用于很多行业中,来解决众多的商业问题,如数据库营销(Database Marketing)、客户群体划分(Cu stomer Segmentation & Classification)、背景分析(Profile Analy sis)、交叉销售(Cross-selling)等市场分析行为,以及客户流失性分析(Chu rn Analy sis)、客户信用记分(Credit Scoring)、欺诈发现(Frau d Detection)等等。 1.2. EM 简介 SAS Enterprise Miner 简称 EM,它把统计分析系统和图形用户界面(GUI)紧密结合,对用户友好、直观、灵活、使用方便,使对统计学无经验的用户也可以理解和使用。 SAS 定义了数据挖掘方法——SEMMA 方法,即抽样(Sample)、探索(Ex plore)、修改(Modify )、建模(Model)、评价(Assess)。以下 SEMMA 方法从 SAS Help 文档中拷贝,不再翻译以求理解准确。 Sample the data by creating one or more data tables. The sample should be large enough to contain the significant information, yet small enough to process. Ex plore the data by searching for anticipated relationships, unanticipated trends, and anomalies in order to gain understanding and ideas. Modify the data by creating, selecting, and transforming the variables to focus the model selection process. Model the data by using the analytical tools to search for a combination of the data that reliably predicts a desired outcome. Assess the data by evaluating the usefulness and reliability of the findings from the data mining process. EM 建立分析流程中,不必包含SEMMA 方法每一步,同时其中的步骤可以重复出现。 在SAS 窗口菜单中依此选择“解决方案”-...