文本挖掘在电子商务场景中应用、机遇和挑战千诀/孙健•电子商务场景中的用户痛点•海量文本挖掘在电子商务场景中的应用•针对用户点评信息的挖掘和应用•购物知识搜索产品中的文本挖掘•构建电子商务知识词库•机遇和挑战提纲购物链购物前•买什么•去哪儿买购物中购物后用户痛点1:点评这么多?用户痛点2:有疑问怎么办?•电子商务场景中的用户痛点•海量文本挖掘在电子商务场景中的应用•针对用户点评信息的挖掘和应用•购物知识搜索产品中的文本挖掘•构建电子商务知识词库•机遇和挑战提纲针对用户点评信息的挖掘和应用(1)针对用户点评信息的挖掘和应用(2)•淘宝每天的点评量–约700万;•一淘每天的点评量–约36万;针对用户点评信息的挖掘和应用(3)针对用户点评信息的挖掘和应用(4)针对用户点评信息的挖掘和应用(5)–“外观不错,功能也挺多,就是玩游戏有点卡,触屏有时反应没那么快,不过这确实不是卖家能解决的问题~总体来说不错了”<外观,不错><功能,多><游戏,卡><反应,(没)快><总体,不错><外观,不错,1><功能,多,1><游戏,卡,-1><反应,快,-1><总体,不错,1>•电子商务场景中的用户痛点•海量文本挖掘在电子商务场景中的应用•针对用户点评信息的挖掘和应用•购物知识搜索产品中的文本挖掘•构建电子商务知识词库•机遇和挑战提纲购物知识搜索中的文本挖掘购物知识搜索中的文本挖掘购物知识搜索中的文本挖掘羽绒服怎么洗涤羽绒服怎么挑选怎么防止羽绒服掉毛羽绒服十大品牌羽绒服能水洗吗怎样去除羽绒服上的油污购物知识搜索中的文本挖掘购物知识搜索中的挖掘购物知识搜索中的<问题-答案>挖掘购物知识搜索中query相关知识挖掘–这个问题抽象为–由一个query给出几个相关知识–这几个相关知识的语义互相独立购物知识搜索中query相关知识挖掘•挖掘方法–把知识聚成几类,每类里面挑选最优的知识条目展现•知识聚类–传统的向量空间模型有两个问题:一是不能解决同义词或多义词问题,二是向量维度高,聚类效果不好;–采用主题模型(topicmodel),可以较好解决这两个问题购物知识搜索中query相关知识挖掘购物知识搜索中query相关知识挖掘•query“羽绒服”及所有与其相关的知识点(这里只显示title,共19200条知识点)羽绒服购物知识搜索中query相关知识挖掘•知识点的主题概率向量P(topic|doc)•比如“羽绒服坏了一个小眼,漏毛怎么办?”这个知识doc的topic向量如下(80个topic)购物知识搜索中query相关知识挖掘•Kmeans聚类后的簇示例•从中可以看到,簇以及簇内的title的质量都参差不齐,所以需要对簇以及簇内的title都进行排序,然后挑选。购物知识搜索中query相关知识挖掘•最后得到的相关知识结果羽绒服购物知识搜索中的<问题-答案>挖掘淘宝详情页是很大的知识宝库淘宝详情页是很大的知识宝库http://www.gu9.com.cn/Health/50.html•阿里内部各产品线具有大量的优质数据•详情页•淘宝帮派bangpai.taobao.com•生意经baike.1688.com/doc/online/index.html•…•外网垂直类网站•www.babytree.com问答数据的全网获取宝贝详情页数据生意经、CRM等资讯、BBS等内网数据外部Q&A专业网站外部购物相关BBS内网外网数据预处理单页面信息抽取多页面信息处理问答知识库人工干预B2C网站购物问答基于Wrapper的问答知识抽取抓取数据URLpattern过滤全文条件过滤建立抽取树结构化知识定位关键区域精确定位模糊定位条件定位Xpath解析定位器获取字段值类目标签关键词区域条件过滤问题回答其它信息字段定位过滤去噪单记录生成类目映射合并去重淘宝详情页问答知识抽取流程原始数据解压缩抽取有格式字段(类目、宝贝名)获取无格式详情建立抽取树(结构化详情文本)抽取详情页中图片链接去噪(过滤肯定不是KV的分支)找Key(文本+结构+属性+风格)后续Value(完整性并反馈找Key)黑白名单等后处理Dump图片预处理(过滤文字占比过低)OCR合并去重购物知识识别结构化知识文本图像挖掘到的数据量数据来源URL总数有效数据量宝贝详情页2亿>2000万生意经3000万115万外网Q&A2000万500万外网BBS1000万100万电子商务知识词库建设•针对电子商务领域,–赋予Term语义信息,...