基于LDA模型的文本聚类研究

学校概况

吉林大学坐落在吉林省省会长春市，是教育部直属的一所全国重点综合性大学， 1995年首批通过国家教委“211工程”审批，2001年被列入“985工程”国家重点建设...

学校公告

综合新闻

您现在所在位置：首页 > 期刊导读 > 2015年 > 01 > 信息摘要

【出处】：

【作者】： 王鹏高铖陈晓美长春理工大学计算机科学技术学院吉林长春130002 吉林大学管理学院吉林长春130022

【摘要】在Web2.0时代,网络文本数据呈现爆炸式增长,传统的文本聚类模型存在数据维数过高,数据稀疏,缺乏语义理解等问题。针对以上问题,本文提出了一种基于LDA模型,通过Gibbs算法估计文本的主题概率分布,利用JS（Jensen-Shannon）距离作为文本的相似性度量,然后采用层次聚类法进行聚类。实验得到较高的聚类纯度（Purity）和Fscore值,表明该方法是有效的。

相关热词搜索： 文本聚类 LDA模型文本相似度层次聚类

上一篇：微博客用户特征分析及分类研究——以“新浪微博”为例
下一篇：基于加权元组潜在语义分析的社会标签推荐