网络科技信息监测中富文档识别与信息提取技术研究

学校概况

吉林大学坐落在吉林省省会长春市，是教育部直属的一所全国重点综合性大学， 1995年首批通过国家教委“211工程”审批，2001年被列入“985工程”国家重点建设...

学校公告

综合新闻

您现在所在位置：首页 > 期刊导读 > 2017年 > 01 > 信息摘要

【出处】：

【作者】： 张敏刘建华谢靖中国科学院文献情报中心北京100190 中国科学院大学北京100190

【摘要】【目的/意义】围绕富文档载体类型的鉴别、元数据的提取等开展相应的实际应用探索。【方法/过程】通过开源工具PDFBox以及Tika对不同类型的富文档元数据及正文内容进行提取,取得了良好的实际效果,为科研人员提供了大量的有学术价值的情报资源。【结果/结论】通过对富文档监测与识别的研究与探索,笔者拓展了文本知识内容的识别方法,为后续的深度知识分析提供了有效的支撑。

相关热词搜索： 富文档元数据类型识别

上一篇：基于系统动力学的多主体回应网络舆情影响因素研究
下一篇：针对科技路线图的文本挖掘研究框架及特征分析