数据挖掘之相似性度量机器学习或数据挖掘,就是在数据中寻求答案的算法
而寻求的答案就是训练完成的数据模型
大部分的数据建模方法都属于这两种:)数据汇总,对数据进行简洁的近似描述如、聚类)特征抽取如频繁项集(同时频繁出现的元素子集)、相似项(共同元素比例较高的集合对)在机器学习或数据挖掘之前,还需要概率,或信息论的一些相关知识,现实世界的对象需要转换为计算机的度量方式
熵的相关概念相似度的度量及计算对文本相似度的分析局部敏感的分析查找相似项的处理流程几种距离度量方式相关知识:文本分类时,一个重要指标:,分为两个阶段:同一文档中的统计;以文档为粒度,所有文档的统计
:词项频率,同一篇文档中,所有词项出现频率的归一化:逆文档频率,所有文档数目,与某一词出现的文档的数目的比率关系其中的关系:不仅仅是一个公式,里面包含了信息论中熵的概念
就是一个特定条件下关键词的概率分布的交叉熵
应用了对数运算
熵的相关概念熵,表示信息量的大小,与概率相关
随机变量的不确定性越大,即概率小,其熵也就越大,将其搞清楚,所需的信息量也就越大
一个系统越混乱,则每个变量的概率越小,其熵也就越大
信息论在通信编码的表示也是一样的,一个变量,在系统中的概率越小,其编码也就越长,因为短的编码要留给概率大的变量
即熵越大,其编码也就越长,这样压缩的效率就比较高
发送一段信息,其需要的编码长度(二进制),也就是求和
或者,可以说,熵越大,信息量越大,一个概率较低的词,可能就是系统信息比较关键的词
互信息:两个随机变量的相关依赖程度,可以用来解释一个变量已知时,另外一个变量的不确定的变化
即不确定信息的减少量
自信息:一个随机变量(信源)发出的信息,这个信息所带来的信息量的度量
一次事件发生的提供的信息量,有时与熵的含义相同(当事件只发生一次时)
而熵是平均信息量,所有自信息的期望
当信息确定时,确定场(无随机性