网络科技信息监测中富文档识别与信息提取技术研究
【出 处】:
【作 者】:
张敏
刘建华
谢靖
中国科学院文献情报中心
北京100190
中国科学院大学
北京100190
【摘 要】【目的/意义】围绕富文档载体类型的鉴别、元数据的提取等开展相应的实际应用探索。【方法/过程】通过开源工具PDFBox以及Tika对不同类型的富文档元数据及正文内容进行提取,取得了良好的实际效果,为科研人员提供了大量的有学术价值的情报资源。【结果/结论】通过对富文档监测与识别的研究与探索,笔者拓展了文本知识内容的识别方法,为后续的深度知识分析提供了有效的支撑。