概率估算方法对中文文本特征提取质量的影响
【出 处】:《
情报科学
》
CSSCI
2011年第29卷第4期 544-547页,共4页
【作 者】:
郑伟
[1] ;
奉国和
[2]
【摘 要】
在文本自动分类中,目前有词频和文档频率统计这两种概率估算方法,采用的估算方法恰当与否会直接影响特征抽取的质量与分类的准确度。本文采用K最近邻算法实现中文文本分类器,在中文平衡与非平衡两种训练语料下进行了训练与分类实验,实验数据表明使用非平衡语料语料时,可以采用基于词频的概率估算方法,使用平衡语料语料时,采用基于文档频率的概率估算方法,能够有效地提取高质量的文本特征,从而提高分类的准确度。
相关热词搜索: 分本分类 特征抽取 概率估算 classification features extraction probability estimate
上一篇:基于证据理论的信息服务成熟度评价模型研究
下一篇:信息距离理论在网站易用性测度方面的应用思考——信息状态确定与复杂路径问题