维基百科在多种类型数字文本资源自动分类中的应用
【出 处】:
【作 者】:
李湘东
刘康
高凡
武汉大学信息管理学院
湖北武汉430072
武汉大学信息资源研究中心
湖北武汉430072
【摘 要】【目的/意义】书目信息和网页等不同类型文献之间存在特征词不匹配等语义差异问题,使得将书目信息作为训练集来对网络信息资源进行自动分类时,现有分类方法的分类性能不佳。【方法/过程】文章提出使用维基百科开展语义特征扩展,解决语义差异问题的自动文本分类方法。使用数字图书馆中容易获取类别标识及摘要等文本内容的书目信息作为训练集,引入第三方资源的维基百科对其进行语义特征扩展,缩小作为训练集的书目信息与作为待分类文本的网页之间的语义差异,对属于不同文献类型的网页进行分类。【结果/结论】实验表明与未经过扩展的分类方法相比,分类准确率分别提高5.5%至8.4%,证明该方法能够有效提高文本自动分类的分类效果。