基于句子成分的微博热点主题挖掘模型研究
【出 处】:
【作 者】:
肖璐
唐晓波
南京大学信息管理学院
江苏南京210093
武汉大学信息管理学院
湖北武汉430072
【摘 要】由于传统聚类分析中文本相似度计算方法不适用于短文本,本文选用基于句子成分的相似度计算方法来计算微博文本之间的相似度。首先对文本进行句子划分,再通过句法分析获取微博的句子成分,选择构成句子成分的词语为特征词。利用知网计算两个微博文本之间相同成分词语的语义相似度,将语义相似度值按句子成分种类加权相加得到微博文本之间的相似度值。据此,构建文本相似矩阵,进行聚类分析,找到微博热点主题。最后,用实验证明本文方法的可行性。