优酷土豆优酷的数据挖掘优酷作为一家大型视频网站,拥有海量播放流畅的视频。注重用户体验这一产品技术理念,将绝大部分存储用在视频资源上。通过建设专用的视频CDN,建立了可自由扩展、性能优异的架构,在提供更好用户体验的同时优化了存储资源。在除视频资源外的其他方面,我们也累积了海量数据:仅运营数据,每天收集到的网站各类访问日志总量已经达到TB级,经分析及压缩处理后留存下来的历史运营数据已达数百TB,很快将会达到PB级,5年后数据量将会达到几十PB级。挖掘数据中的价值对优酷而言,通过用户的每次播放流程,对页面浏览、评论收藏、视频播放以及播放时的各种操作进行了记录。经处理后的分析结果会反馈给不同的业务模块,对包括产品、内容运营、用户的个性化推荐及广告投放等方面的提升,都起到了关键作用。网站页面、客户端的UI/UE的设计及效果,都需要数据进行支持。通过A/B测试系统,我们收集到用户对不同UI下的操作反馈,进而评估UI的改变对用户的影响。内容方面,通过对用户网络情况的统计:每次播放是否发生了缓冲,平均下载速度是多少等,进行实时的统计和计算,获取每个地区每个运营商下用户的加载表现,以此来决定CDN节点的分布和分配策略,为不同地区、不同运营商的用户提供清晰流畅的视频服务。在推荐方面,通过对大量视频播放行为的分析,归纳不同时长、不同类型、不同内容的视频之间的相互关联,挖掘不同人群用户的同质化观看习惯,对每次用户的观看进行有针对性的后续推荐,并借助后续数据的分析,迭代地改善现有服务,为用户提供量身定制的推送服务。数据对于优酷的广告精准投放也起到了重要作用。优酷的广告系统支持对不同地域、频道、标签及人群等条件的定向投放。在投放策略上,我们本着尽可能不影响用户体验的原则,对于广告长度及投放频次都进行了限制。虽然这给投放造成了较大难度,但通过对各种细粒度的定向条件组合历史数据进行的分析,我们在广告投放方面已经相当准确。在投放阶段,我们实时分析用户属性、访问情况及当前广告投放量,对每次投放动态调整。图1运营数据处理技术架构优酷自制剧靠数据涨分4年前,优酷的自制剧《嘻哈四重奏》上线,这被认为是中国互联网第一部真正意义上的网剧,到目前已播出四季,累计播放量超过2亿。卢梵溪强调,《嘻哈四重奏》能够播出四季,功劳在数据挖掘和分析。“当初第一季上线时,网友评价不高,总评分只有6.3分。”卢梵溪说,之后团队对用户习惯进行挖掘,包括高峰时段用户最青睐的剧情类型、点评最多的情节、哪些剧情用户跳过或重复观看……“比如,我们发现第一季中,网友对偷菜游戏的评论频次很高,所以在后来的剧情中,加入了植物大战僵尸、愤怒的小鸟等当下最流行的游戏。”卢梵溪说,第二季时用户评分提高到7.8分,第三季和第四季则一路升至8.9分和9分。优酷土豆集团高级副总裁魏明说,每个优酷视频播放按钮的下方都有核心数据,包括播放量、顶和踩的数量、评论数和收藏数量等。数据处理技术方面,在优酷的后台有拖页统计的功能,一秒钟有多少人拖过,有多少人看过,都能收集到。“这些数据从优酷建站第一天就在积累,大数据是最近一两年才冒出来的话题,而优酷出品很早就靠这些详尽的数据分析来运作,做出投资判断。”不仅是优酷土豆集团,搜狐视频、爱奇艺等都在做着数据收集的事情,并逐步加大对自制剧的投入。乐视基于大数据的网络剧将成业界标配8月29日,乐视网举办自制剧《XGirl》启动发布会,该剧亦是2013年度乐视网络自制剧的收官之作。事实上,自两年前发布“乐视制造”原创战略至今,乐视网在自制栏目网络剧及微电影方面已作出诸多探索。尤其在2013年,乐视网连续推出了《我叫郝聪明》、《我怀了你的孩子》、《PMAM》、《唐朝好男人》、《女人帮•妞儿》等自制剧,均取得不俗成绩。《PMAM》上线不久便突破一亿VV大关,在百度搜索风云榜台剧排名居第二位;前不久刚刚下线的网络穿越剧《唐朝好男人》赢得近3亿播放量。乐视网自制的《黄·段子》以及《就好这一口》也颇受观众青睐。对于自制剧未来趋势,刘弘认为,基于大数据制作、运营网络剧将会成为业界标配。乐视网注重数据积累、数据分...