机器学习与数据挖掘样本准备样本准备对象分割对象在文档中可能只占很小比例用整个文档提取的特征含有大量噪声特征与特征提取使用什么样的特征
如何进行预处理
……样本选择正负样本数可能严重失衡(1:10,1:100)样本可能包含噪声图像分割如何分割需要被分割成不同部分的对象有什么不同
第一类图像:前景与背景图像分割前景与背景分割假设:前景与背景亮度不同一个暗一个亮阈值分割阈值如何求最优分割阈值
图像分割前景与背景分割基于直方图的方法直方图:图像灰度级的离散概率密度函数如何发现这个点
图像分割前景与背景分割最大熵算法熵:物理含义:分布的“均匀性”越均匀,熵越大越不均匀,熵越小spspHs1log]255,0[图像分割前景与背景分割最大熵算法图像假设:前景/背景亮度不同直方图如同时包含前景和背景,则其熵将变小如只包含前景或背景,熵将变大把直方图分解成两部分,分别计算熵,两部分熵的和最大时为最佳分割阈值H1H221]255,0[maxargˆHHTs很强很完美
图像分割前景与背景分割最大熵算法图像噪声影响直方图0
001000
001500
002000
002500
00ih(i)NoisefreeLownoiseHighnoise图像分割前景与背景分割最大熵算法如何解决
图像分割前景与背景分割物体的分布区域是空间连续的相邻像素应该有相同的分类很可能是噪声如何利用这些信息
图像分割前景与背景分割松弛算法P(i):像素i是前/背景的概率ii1i2i3i4i5i6i7i881,
,~~iPiPFiPiPiPpixelmax/gigiPpixel像素值255