基于LDA主题模型的图书网页书目信息提取研究
【出 处】:
【作 者】:
李湘东
霍亚勇
张娇
武汉大学信息管理学院
湖北武汉430072
武汉大学信息资源研究中心
湖北武汉430072
【摘 要】以图书网页为对象,主要研究书目信息提取方法。该方法首先利用LDA对书名与各描述性段落组合的混合文本进行建模,然后分别计算书名与各段落之间的相似度提取书目信息,有效地避免传统方法不能很好反映文档间相似性的不足。实验证明,该模型针对图书网页书目信息的提取准确率达到87.4%,较传统方法有了显著提高,同时也为图书网页信息组织管理和自动分类研究奠定了基础。
上一篇:基于知识转移存量的知识联盟演化机理模型研究
下一篇:基于弱势群体信息获取现状的弱势群体信息获取保障水平和标准研究