(1)数据整理和概念分组。
数据整理即通过手工或自动的方式对数据域内的词语进行标准化处理。概念分组包括词语的标准化以及同义词的识别。那些拼写错误的词汇将被清除,同义词将被合并或替换。例如,已经合并的两家专利申请企业的专利将被清理组合成一家后并入企业的总专利清单。
(2)列表或直方图。
列表或直方图是通过将两个或两个以上实体(国家、公司、个人或某个领域)的专利在某个数据域上的统计数据进行比较绘制而成。可选的数据域有专利权属人、专利发明人、专利类别、年代、国家等。
(3)比较矩阵(Co - occurrencyMatrices) 。
将两个或两个以上的数据域相比较,生成比较矩阵,用以发现两种数据域的相互联系。两个数据域中的数据分别分布在X、Y轴上。矩阵中的数字表示同时拥有两个数据域中对应数据的文档的数量。例如,可以用X轴表示时间, Y轴表示专利权属人,矩阵中的数字代表每年专利权属人申请专利的数量。
(4)有结构数据聚类。
有结构数据,亦称为有域数据,是指被标记过或者属于某数据域的数据。例如, XML文档或者数据库中的一个字段。这种数据的标记和数据域不是文档的作者创建的,它们可能是某一系统早已约定的。例如,Der2went数据库和美国专利数据库中收集的专利文档具有不同的结构。聚类,通俗地说,就是将相关文档放在一起。有结构数据聚类的依据是,具有相同结构和大量相同编码的文档是相似的。有结构数据聚类的关键是如何将不同结构的文档转化为相同的结构存储在本地数据库中。
(5)无结构数据聚类。
无结构数据,亦称为文本数据,是指没有被索引或分割到单独数据域的文本数据。文本中仅有的结构就是句子、段落等。它们在作者写作时产生,并由作者随意编纂。因此,分析软件很难根据上下文来理解文本。例如,在无结构文本中,软件不能区分一个数字串是代表日期还是专利号。原始文本必须先经过处理,识别其中包含的概念和习语。与有结构数据聚类不同,无结构数据聚类是根据概念,而非编码。其依据是,具有大量相同概念的文档是相似的。无结构数据聚类过程比较复杂。聚类首先从识别相关词开始。这一过程涉及词汇的提取。英文文本被空格、破折号等标点符号分割为一个个字符串,称为标记(在中文文本中,词语之间没有空格分割,因此必须采用分词和语义分析技术提取词汇) 。标记是词汇的基础。软件在分析文档时识别出所有的标记,由于在全文文档中,标记的数量非常巨大,因此,必须去除停用词,如“a”、“the”、“be”等,它们与文档内容无关,称为无实义词。此外,用户还可根据实际应用添加其他停用词。去除停用词后,文档词汇大大减少,接下来需要抽取词干,整理那些只有后缀不同的词汇,最后运用TF IDF运算法则产生用于聚类的词汇的倒排档。倒排档中处于两端的词汇将不参与聚类,将剩下的词汇进行统计分析,找到文档间的共用概念,便可生成聚类。
(6)文档聚类地图。
将文档聚类排列到一个二维空间,就构成了一张地图。地图上空间距离的远近代表了文档集合之间相同元素的多少。具有较多相同元素的文档集合位置更紧密,而具有较少相似元素的集合位置较远。文档聚类地图可视性强,便于理解,可以清晰地展示出不同主题之间相似性的强弱,以及那些拥有多个类别的特点,不适合被划分到任何一个单一类别中的文档。
(7)引文分析。
所谓专利引文,是指当专利发表时,出现在专利文档第一页上的对早期专利的提及。它代表了该专利所用到的最相关的专利技术。通过专利引用历史,可以将专利文档联系起来,并通过“树”或“图”结构直观地展现这种联系。沿着这些结构,可以看到早期技术怎样被改进,新技术怎样被孕育。进而计算引用量,发现关键技术以及潜在的竞争者。
( 8 )“主语/行为/宾语”( Subject/Action /Object, SAO ) 。
“主语/行为/宾语”是一种自然语言处理技术。它可以根据语法规则表示句子中的概念。例如,“碘可预防甲亢”这句话包含主语(碘) ,行为(预防)以及宾语(甲亢) 。利用Java工具(J - RAN)可以自动提取用自然语言描述的文档中的相关概念,即SAO中的三元素。采用此法处理专利文档,可以进行知识挖掘,构造知识库。 |
|