基于互信息的不平衡Web文本分类方法研究
【出 处】:
【作 者】:
刘忠宝
赵文娟
中北大学计算机与控制工程学院
山西太原030051
山西大学商务学院信息学院
山西太原030031
【摘 要】当前主流的Web文本分类方法无法有效解决不平衡文本分类问题。本文在经典C4.5决策树算法基础上,借鉴信息论最新研究成果,提出基于互信息的不平衡Web文本分类方法。该方法与代价信息无关,在深入分析互信息与C4.5决策树之间关系的基础上,通过最大化预测类别和真实类别之间互信息,可以为其他代价敏感学习方法提供重要参数,也可以独立运行并得到分类结果。搜狗实验室真实数据集上的实验表明所提方法的有效性。