基于海量用户行为数据分析的互联网增值新业务What,WhyandHowWhat?–要作什么事•对每个宽带用户的每次浏览网页行为进行记录,在海量的数据记录上分析用户的浏览习惯、兴趣爱好、关注焦点等,对用户进行全方位的“画像”。•按用户属性和行为特征对全部宽带用户进行聚类和精细化的客户群划分。•依托运营商平台,利用网络广告、直投、个性化内容推送等手段对宽带用户进行“一对一”的精准营销。What图解用户上网的历史行为用户属性和行为特征男性年龄25-35岁来自北京.海淀.上地IT从业人士热衷科技产品NokiaN95用户中高端消费等级喜欢户外运动和旅游追求奢侈品...…What图解续–………客户群A客户群B客户群C客户群D客户群E客户群F…用户标识和特征…用户精细划分精准营销Why?-为网通带来新价值•精准广告收入–合作模式:与网络广告商、传统广告商、SP、广告联盟分成精准的用户属性将大幅度提高广告的价值,让每一次PageView都变成金子–自营模式:个性化内容推送[例子:“一对一”的个性化号百和12580]想用户所想,急用户所急–直销(DM)分成收入:与最终厂商合作•提升ARPU值,快速拓展新用户–采用精准的营销策略带动用户升速分析升速用户的行为习惯:什么样的用户需要升速?什么样的SP会吸引升速用户?–通过DM捆绑销售和优惠的接入价格快速拓展新用户在新竞争格局中领先一步,形成良性的循环:更低的接入价格带来更多的用户,获得更多的增值业务收入How?–HyperCloud解决方案•技术架构•核心处理算法•演示•ROI分析低成本和可靠的海量存储子系统平滑可扩展的分布式运算子系统高吞吐率的运营服务子系统低成本和可靠的海量存储子系统•多级别存储,成本降到300$/TB•无需RAID支持,保证99.9%可用性•多元数据服务器,管理亿级数量文件•可在线扩展至PB级规模•条带化存储,多数据通路聚合•支持对象存储(OSD)接口•I/O缓存平滑可扩展的分布式运算子系统•3M架构:借鉴Google的分布式计算架构,针对海量数据挖掘的需求对单点性能和多点负载均衡作最大限度的优化•Key-ValueQuerywithMemoryCache–突破Key-ValueQuery的瓶颈,单点上亿条规模Key-Value对的查询时间小于200ms(传统DB的1/20),Dell1950DualQuad-Core,3.0Ghz•RangeQuerywithMemoryDatabase–列存储(Column-based)结构,突破RangeQuery的瓶颈,单点上亿条记录的RangeQuery(selectxfromtwherea隐性特征是大样本基础上的机器学习MachineLearning,ML),例子“劲舞团”=>游戏-舞蹈类|青少年85%“兰寇”=>化妆品-兰寇|女70%高端=>65%“铁血”=>爱国|男90%“美女”=>闲逛|男90%“爱卡论坛”/“宝马”=>汽车-宝马|高端消费人群70%中端消费人群60%低端30%“奶粉”=>婴幼儿用品-奶粉|女70%,有小孩90%“内衣”,“爱慕”=>内衣-文胸-爱慕|女85%核心处理算法(3)-处理流程HTTP请求数据HTTP请求数据Radius计费镜像数据Radius计费镜像数据垃圾流量过滤器(ML)垃圾流量排名Radius归并过滤器广告流量过滤器(ML)广告流量排名用户会话/点击路径识别过滤器高权重行为模式分析器泛行为模式分析器访问统计过滤器第三方PV,UV,ADV...