基于加权策略的 SVM 多元分类器• •华南理工大学信息网络工程研究中心 • 广东省计算机网络重点实验室 • • 曹鸿 董守斌 张凌全国搜索引擎与网上信息学术研讨会目录• 算法描述– 传统一对多( OVA )方法– 加权阈值策略( OVA-WWT )• 系统模块• 实验结果• 结论传统 OVA ( One-Vs-All )方法:主要思路• 主要思路– 训练 N 个不同的二元分类器,第 i 个分类器用第 i 类中的训练样本作为正的训练样本,而将其他样本作为负的训练样本 – 当对一个新文档进行分类时,分别运行 N 个二元分类器,选择输出相似度值最大的那个分类器的结果 传统一对多( OVA )方法:形式化描述 • 给定个 l 训练样例 ( , ), … ( , ) ,其中 , i =1, … l, 且 是 xi 的类标签,则第 i 个 SVM 分类器要解决下面的最优化问题 : – – • 用下面的 k 个决策方程计算 x 与 k 个类别的相似度: • 最终判定 x 隶属于决策方程输出相似度最高的那个类别: Class of x = 1x1ylxlyniRx },...1{kyi ljijiiiibiwCww1T)(21minl,jiybxiwi ybxiwijiijijiijij...10, if,1-)()(if,1)()(s.t.TT kibxiwxfii,...1,)()()(T))()((maxargT,...1ikibxiw阈值策略• 阈值策略:把一篇文档归属到某些相关类别中的方法 • RCut 、 PCut 和 SCut • 传统 OVA 使用的是 RCut 策略传统一对多( OVA )方法:缺点1 )比较文档对 N 个类别的相似度,简单地取相似度最大的那个类别,由于这 N 个相似度是由 N 个不同的分类器产生,简单地取最大值作为阈值策略并不合适;2 )对所有类别一视同仁,而实际上,有些类别属于“弱势类”,其类别信息容易被“强势类”所淹没,导致“弱势类”文档被误分到“强势类”中的不公平现象。本文对 OVA 的改进• 提出加权阈值策略 (Weighted RCut: WRCut)• 通过给不同类别的相似度结果赋以一定的权重值后再进行比较,实现“弱势类”和“强势类”之间的势力均衡,以消除使用单一的 RCut 策略所造成的不公平现象 目录• 算法描述– 传统一对多( OVA )方法– 加权阈值策略( OVA-WWT )• 系统模块• 实验结果• 结论加权阈值策略( OVA-WWT )算法描述:• 先解 SVM 最优化问题,用决策方程计算出文档对 N 个类别的相...