基于改进TF-IDF特征提取的文本分类模型研究

学校概况

吉林大学坐落在吉林省省会长春市，是教育部直属的一所全国重点综合性大学， 1995年首批通过国家教委“211工程”审批，2001年被列入“985工程”国家重点建设...

学校公告

综合新闻

您现在所在位置：首页 > 期刊导读 > 2017年 > 05 > 信息摘要

【出处】：

【作者】： 周源刘怀兰杜朋朋廖岭清华大学公共管理学院北京100084 华中科技大学机械科学与工程学院湖北武汉430074

【摘要】【目的／意义】特征提取会很大程度地影响分类效果，而传统TF—IDF特征提取方法缺乏对特征词上下文环境和对特征词在类之间分布状况的考虑。【方法／过程】本文提出一种改进TF—IDF特征提取的方法：①基于文本网络和改进PageRank算法计算节点重要程度值，解决传统TF—IDF忽略文本结构信息的问题；②增加特征值IDF值的方差来衡量特征词w在不同类别文本集中程度的分布情况，解决传统TF—IDF忽略特征词在类之间分布状况的不足。【结果／结论】基于该改进方法构建了文本分类模型，对3D打印数据进行分类实验。对比算法改进前后的分类效果，验证了该方法能够有效提高文本特征词提取的准确度。

相关热词搜索： 特征提取 TF—IDF 文本分类文本网络 PageRank

上一篇：基于三层微信网络的谣言传播模型仿真研究
下一篇：基于本体的JESS推理实证研究