基于依存句法分析的微博主题挖掘模型研究
【出 处】:
【作 者】:
唐晓波
肖璐
武汉大学信息资源研究中心
湖北武汉430072
【摘 要】近年来,微博成为人们获取与发布信息的重要方式,每天有大量微博数据产生,对其进行热点主题挖掘意义重大。数据挖掘中的聚类分析是挖掘热点主题的重要方法,但由于篇幅限制,传统聚类效果有限。本文据此提出用依存句法分析来改进传统文本相似矩阵,以提高聚类准确性。首先采用传统文本处理方法构建文本相似矩阵;再利用依存句法分析句子的结构,获取微博信息的依存树,找到有效依存词对,并据此计算文本相似度,构建另一个相似矩阵。综合两个矩阵得到更准确的微博文本相似矩阵,在此基础上运行聚类算法,挖掘出热点主题。最后根据评论数和转发数挖掘出重要主题与重要微博,完成微博主题的深入分析。
上一篇:专利信息服务中的术语抽取
下一篇:地震灾害救援中的信息公平问题研究