专利信息服务中的术语抽取
【出 处】:
【作 者】:
屈鹏
王惠临
中国科学技术信息研究所
北京100038
【摘 要】研究专利信息服务中面向信息分析、机器翻译和文本挖掘三种应用的术语抽取。使用包括与电动汽车有关专利数据和NTCIR的Patent MT数据集合。研究结果显示,合适的候选术语长度随应用而变化;加权方法和文档频率的影响与数据来源相关;文档频率对于评估机器翻译的术语重要性有重要作用。进而,讨论了面向信息服务的文本挖掘研究的特点和评价方法。本研究可为相关文本挖掘研究提供实践经验,同时初步探讨了面向信息服务的文本挖掘研究的理论问题。