摘要基于当今这个高度信息化的时代,数据挖掘技术及数据仓库的高速发展,通过网络平台交流的用户日趋增加,客户分类就成为了当今社会首要解决的问题。本论文在数据挖掘的理论、方法及技术上,以决策树为建模主要思想,采用决策树中的基于指数的分类和回归树()算法,把新浪微博客户信息转化为属性结论式的形式,通过构建树、修剪树、评估模型三步骤,将客户进行分类,从而快速准确地区分目标客户及非目标客户。在数据挖掘技术模型的基础上,将新浪微博的目标客户模型做部分的调整,最终能够得到最优化模型。该模型有着响应时间较短且精度高的特点,若运用到实际生活中能够大大地提升客户分类的效率,那么无论是企业还是个人都将从中受益良多。关键词:决策树;目标客户;;新浪微博;数据挖掘,.,..,,.,.,,.,.,,.,,,.:;;;;目录一、前言由于通讯技术迅猛发展,中国网络发生了根本性地改变,与国外相比,国内的交流平台面对着一个全新的,全球化的,竞争更加激烈的市场环境。在这样一个商业时代,资源占有率成为一个企业生死存亡的关键点,客户才是企业生存与发展的根本,而对于如何改善客户服务,增加客户满意度和忠诚度,提升客户价值来扩大自身的收入和利润,如何用信息化管理来替代原有的传统管理手段等方法,是新浪门户当前解决的重要问题之一。因此,企业必须从“产品”导向向“客户”导向转变,从而对客户进行有效管理,深层分析存储大量客户信息的数据仓库,提高企业市场竞争力,获得有利于商业运作,有效信息从而创造更多的价值。而当前的数据库技术虽可以对数据高效查询、分析及统计,但是仍无法发现潜在的规律和联系,因此便无法对未来发展的趋势进行更好地预测,导致了一种“数据膨胀但是知识贫乏”的现象[],这样的需求便使数据挖掘这门技术孕育而生。数据挖掘技术是从先前不知的、大量的、模糊的、不完整的随机的数据中提取潜在的有用的知识及信息的一个过程。正是有了这种技术的支持,才使得客户分类的理念及目标得以完成,满足当前时代激烈竞争的需求。(一)研究背景根据权威发布的第次中国互联网统计报告,截止到年月底,我国微博用户持续增长,规模达到亿,比较年增长亿,网民中的微博用户较去年相比提升个百分比,达到了[]。网络信息交换的新风向标新浪微博平台的推广,打破了时空的限制,改变了交流的形势,加速了整个社会的信息快速流通。对于企业而言,有助于降低企业成本提高企业竞争力,能够帮助企业“走出去”,快速交换、获得信息。数据挖掘是分析与探索大量数据,以求发现有意义的规则与模式的过程。同样对于一个企业来说,数据挖掘过程能够有助于发现企业业务发展的趋势,预测未知的结果,揭示已知的事实,且帮助企业分析出完成要求任务所需的关键因素,从而达到降低成本、增加收入,使企业处于更有利的竞争位置的目的。齐克芒德认为,“成功的管理者必须同时了解营销概念和信息系统结构,才能持续形成全面、可靠和完整的客户观念并加以成功应用”企业必须建立适合自己的客户管理系统,构建数据仓库,将客户关系管理系统与数据挖掘技术有效结合,深层分析存储大量客户信息的数据仓库,提高企业市场竞争力,获得有利于商业运作、有效信息,争取新的客户,让已有的客户创造更多的利润、保持住有价值的客户[]。从这些方面能够看出,当今社会数据挖掘技术对于客户分类具有相当重要的意义及作用。(二)选题目的作为如今人类生活沟通必需品且服务于社会各阶层的新浪微博,其在互联网、广播、电视等各种媒体上的覆盖面,各种实体上的推广,和在网络上的推广,在社会上产生巨大的影响力及知名度,最终带来了大量的目标客户群。同时,由于新浪微博的特殊性,也带来了大量的非目标客户。为降低成本,提高新浪微博生成效率,降低成本,如何在数量巨大的客户中准确地寻找到目标客户,成为一个急需解决的重要问题。从相关资料分析得出,新浪微博平台往往带来非目标客户如儿童、老人等,也带来大量捏造的、虚假的客户资料。而人工筛选目标客户只会大大降低整个市场的效益,浪费了企业大量的物力、人力以及财力。因此如何建立合理的客户筛选模型,定位目标客户显...