概率估算方法对中文文本特征提取质量的影响

学校概况

吉林大学坐落在吉林省省会长春市，是教育部直属的一所全国重点综合性大学，1995年首批..通过国家教委“211工程”审批，2001年被列入“985工程”国家重点建设�...

学校公告

综合新闻

您现在所在位置：首页 > 期刊导读 > 2011年 > 04 > 信息摘要

【出处】：《情报科学》 CSSCI 2011年第29卷第4期 544-547页,共4页

【作者】：郑伟 [1] ; 奉国和 [2]

【摘要】在文本自动分类中,目前有词频和文档频率统计这两种概率估算方法,采用的估算方法恰当与否会直接影响特征抽取的质量与分类的准确度。本文采用K最近邻算法实现中文文本分类器,在中文平衡与非平衡两种训练语料下进行了训练与分类实验,实验数据表明使用非平衡语料语料时,可以采用基于词频的概率估算方法,使用平衡语料语料时,采用基于文档频率的概率估算方法,能够有效地提取高质量的文本特征,从而提高分类的准确度。

上一篇：基于证据理论的信息服务成熟度评价模型研究
下一篇：信息距离理论在网站易用性测度方面的应用思考——信息状态确定与复杂路径问题