24/12/23WebUsageMining1WebUsageMiningIntroductionandTrends演讲人:阮备军24/12/23WebUsageMining2提纲1.简介1.1WUM的定义和应用1.2WUM基本的过程1.3原型系统和商用系统2.趋势24/12/23WebUsageMining3WebMining的分类[1][2]:1.ContentMining2.StructureMining3.UsageMiningWebMining分类24/12/23WebUsageMining41.1.1定义(JaideepSrivastava[1])“theprocessofapplyingdataminingtechniquestothediscoveryofusagepatternsfromWebdata”24/12/23WebUsageMining51.1.2功能SystemImprovement1).SiteImprovement2).WebCachingandNetworkTransmission(E.Cohen[5])24/12/23WebUsageMining61.1.2功能1).SiteImprovement根据实际用户的浏览情况,调整网站的网页的连接结构和内容,更好的服务用户A=>B=>C=>DA=>D极端:Adaptivewebsites(MikePerkowitz[7][8])24/12/23WebUsageMining71.1.2功能2).Caching&NetworkTransmission(E.Cohen[5])例如:从proxy的访问信息中可以分析用户的访问模式,从而可以预测用户的Page访问,提高WebCaching的性能A=>B=>CA=>B=>DA=>BCached:C、D24/12/23WebUsageMining81.1.2功能*与传统的销售途径不同的是:网上零售系统可捕捉到大量的采购过程的细节,提供了更加深入分析的可能24/12/23WebUsageMining91.1.2功能Personalization定义:根据发现的用户喜好,动态地为用户定制观看的内容或提供浏览建议。直接实现形式:Recommender系统([10]J.BenSchafer)。作用:1)方便用户查询和浏览2)增强广告的作用3)促进网上销售4)提高用户忠诚度24/12/23WebUsageMining101.2基本的过程*1).DataGathering2).Preprocessing3).Patterndiscovery4).Patternsanalysis24/12/23WebUsageMining111.2基本的过程SiteFiles,RawUsageData,UserProfileSiteContent&Structure,Server/Session/EpisodeDataUsageStatistics,UserClusters,AssociationRules,SequentialPatternsKnowledge1).DataGathering2).Preprocessing4).Patternsanalysis3).Patterndiscovery24/12/23WebUsageMining121.2.1DataGathering可以利用的WebData包括:1).Content:页面的实际内容2).Structure:包括intra-structure和inter-structure3).Usage:例如:ClickStream4).UserProfile:例如:registrationdata和customerprofiles5.BusinessData?24/12/23WebUsageMining131.2.1DataGathering数据来源:1)ServerLevelCollection2)ClientLevelCollection3)ProxyLevelCollection24/12/23WebUsageMining141.2.1DataGatheringServerLevelCollection:1)WebLogFile2)PacketSniffing技术缺点是扩展性差(加密通道和用户跟踪)3)WebPageContent&structure4)ApplicationServer24/12/23WebUsageMining151.2.1DataGatheringClientLevelCollection:优点是可以比较全面和准确收集到用户数据•Applet&Script缺点:不支持代理,功能会被用户关闭。•Modifiedbrowser优点是全面和准确收集到用户数据,缺点是需要吸引或强制用户使用24/12/23WebUsageMining161.2.1DataGatheringProxyLevelCollection:这种数据收集方式适合有大量静态页面的网站24/12/23WebUsageMining171.2.2Preprocessing1).Content&Structure2).UsageData24/12/23WebUsageMining181.2.2PreprocessingContent&Structure:解决两个问题第一、page的独特性的表示方法?第二、page的内容和结构的量化形式(quantifiableform)24/12/23WebUsageMining191.2.2Preprocessingstructure举例:ABCSiteMapEindex1AB1CFNavigationMixedMediaPageType24/12/23WebUsageMining201.2.2PreprocessingABCSiteMap的结构可表示为:M=F1={index,(frame,1,left|frame,A,main)}F2={1,(get,A,main),(get,C,main)}F3={A,(get,B,top)}F4={C,(get,E,top),(get,F,top)}F5={B}F6={E}F7={F}24/12/23WebUsageMining211.2.2PreprocessingIndex=>1-A=>1-C=>EIndex=>1-A=>BMap的结构表示了用户可能的click访问的路径24/12/23WebUsageMining221.2.2PreprocessingContentClassification:1)UsageType2)ContentFeatures*具体种类的划分跟应用的环境相关24/12/23WebUsageMining231.2.2Preproces...