一、欧洲专利局的数据收集策略及现有成果
欧洲专利局将授予高质量的专利和尽可能为公众提供专利信息服务为己任,并基于这一责任提出它的文献数据收集总体目标是“保证公开信息的及时性,完整性和准确性”。欧洲专利局专利文献收集的具体目标包括以下几项内容。
*获得世界上公开的所有专利文献的著录项目信息;
*为审查员提供在单一官方语言环境下、所有可得到的具有惟一性的专利文献可检索的全文信息;
*获得世界上公开的所有专利文献的英文文摘
*获得世界上公开的每一件专利文献的图形信息。
为了实现专利文献数据收集的目标,欧洲专利局组建了一支面向全球的、跨部门的专利文献数据收集、加工和服务的队伍。这支队伍的成员主要来自4个部门,即欧洲专利局慕尼黑总部的欧洲和国际事务部(PD5.1)、海牙分局的文献部(PDTools-Documentation)、信息系统部(PD-Information System)和维也纳分局(PD4.5)。其中,欧洲和国际事务部负责推进与各国或地区的工业产权局(专利局)的合作项目,与各国或组织的数据交换是合作项目的内容之一;文献部负责数据接收、处理、加工和维护,并负责与各国或组织的相关机构实施具体的数据交换及各种数据的提取工作;信息系统部负责所有信息技术支持,软件开发、系统设计、数据库建设和运行维护;维也纳分局则承担收集各国专利的法律状态信息以及专利信息产品的制作、出版与销售。
现在,欧洲专利局已成为世界上收集专利数据最多的专利局。在欧洲专利局的数据库中收录了近80个国家和组织的专利数据,已收录1970年以来大多数主要工业国和大多数欧洲专利组织成员国的英文文摘和1920年以来的完整的专利文献图形,并收集了采用欧洲专利局正式语言(英语。德语或法语)的9个国家或组织(AT、BE、CH、DE、EP、FR、GB、US、WO)的可检索的全文专利数据。以欧洲专利局的DocDB(DocumentDatabase,文献管理数据库)为例,该数据库现已收录了世界范围内的大约5 800万条记录,被三方合作伙伴(欧洲专利局、美国专利商标局和日本专利局)认可为著录项目的主数据库。而欧洲专利局的BNS(BaconNumericalServicessystem,图形和全文文本数据库)收录的专利图形记录也达到约5860万件。
对于非专利文献数据的收集,除收集必需的非专利文献外,主要是根据审查员的需求,由文献部进行收集。非专利文献的收集范围广泛,种类繁多,包括各种科技和商业的期刊杂志、图书、论文、技术报告、专著、标准、大百科全书、词典,会议论文集、公司防御性出版物、出版商制作的专业数据库等。到2005年5月,欧洲专利局收录超过1.05亿条的可供内部使用的非专利文献文摘。
二、欧洲专利局的数据处理、加工与维护
对于来自于近80个国家和组织的各种专利和非专利文献数据,欧洲专利局建立了一支由文献人员、技术人员和审查员组成的数据处理、加工和维护队伍,其主要实施部门是欧洲专利局的文献部。
文献部拥有大约200名员工,共由6个处组成,它们分别是数据管理处、应用研究与发展处、数据库应用处、文献收集处、分类处和文献工具处。部分审查员参与该部门的相关工作。
通常,数据处理,加工与维护的流程分为三步。第一步,数据载体的处理;第二步,数据的验证。校正及标准化;第三步,数据的装载与维护。
1.数据载体的处理
从世界各地收集的各种数据的载体和类型多种多样。以数据载体为例,就包括纸件,电子邮件,FTP传输,CD/DVD光盘,数据摘要磁带(DAT Tape),主机3490E盘式磁带(Mainframe 3490ECartridge)等。而数据的格式更是多种多样,仅CD-ROM光盘的数据格式就达20种之多。因此,数据处理的第一步是将数据从各种载体中导出来,然后复制到数据处理的系统内。
2.数据的验证、校正和标准化
由于数据来源复杂,数据质量参差不齐,在专利文献数据被装载到DocDB之前,数据必须经过验证和转化为标准数据格式,否则将造成数据检索和应用的困难。验证工作主要包括以下内容。
*申请号是否是该专利授权机构(专利局)的正确格式;
*公开号是否是该专利授权机构(专利局)的正确格式;
*优先权号是否是正确格式,是否存在;
*是否有日期,日期是否一致;
*所有希望的数据信息是否都存在。
当所有的验证工作通过后,数据将以一种标准格式装入DocDB数据库内,如果没有通过验证,数据就被送到DocDB校正与维护服务组进行数据的校正。
数据存在的问题主要表现在优先权数据不一致,对于申请人或发明人的名称有多种表达方式,缺陷信息(如日期、优先权信息丢失),国际专利分类不正确,引证数据不正确等。因此,数据的校正工作主要集中在优先权数据、IPC国际专利分类、发明人。申请人、标题和ECLA欧洲专利分类等方面。
欧洲专利局通过审查员、DOCHelp(内部使用者的文献帮助台),Doctool/Clipon(内部分类工具)、数据管理人员、质量控制部门以及外部的用户(如通过esp@cenet网站)等多方面收集错误数据信息,通过在线数据校正软件对错误数据进行校正。在2004年全年,文献部校正的错误数据信息达98万个。
当数据通过验证以后,在装载到DocDB之前,各种数据还需要转化为统一的标准格式。其原因在于欧洲专利局收集的数据来源于全球近80个国家和地区,国家不同,专利代理人不同,审查程序不同造成申请文件信息的不同,而且各国数据标准各异,如果按照各种数据的原有形式装载到数据库内,将会增加数据检索工具开发的难度。
欧洲专利局认为,没有统一标准化的数据是造成现在各数据库和文件之间的分离和相互连接困难的主要原因,数据的标准化有利于形成所谓“智能专利”。“智能专利”是指专利文献在数据库中的相互连接,同族专利全部都连接在一起,不同的数据流也被连接在一起,不同语言的同族专利的著录项目数据,文摘。全文文本数据、图形、引证文献和基因序列数据也能轻而易举地连接在一起。
通常没有经过标准化的著录项目主要
包括申请号、公开号、发明人和申请人名称以及优先权数据。以优先权数据为例,该数据是组成同族专利的关键,对于审查员非常重要。但在美国专利文件中,一周之内对日本优先权有6种写法。
10-043271
H11-13220
97A06620-A
2002-219397
132900/2002
298300
因此,对优先权数据的标准化有利于数据的匹配。
为此,欧洲专利局制定了《代码表》《公开号格式表》《申请号和优先权号格式表》及《申请人名称标准化手册》等资料供数据验证、校正和标准化时参考。
3.数据的装载和维护
经过验证和标准化的数据被装入到DocDB数据库中。在数据装载时,新数据将被与数据库DocDB内现有的数据进行对比,被拒绝装载的数据将被分析和重新校正。新数据装 DocDB以后,还要对专利申请数据进行自动分类,创建同族专利基本文档,启动CLIPON(在线分类工具)进行基本文档的分类等。数据的维护还包括每周为INPADOC系列产品,EPODOC数据库,Esp@cenet网站等提取数据。
非专利文献也有相应的数据处理和验证流程,其目的在于,通过对这些资料的加工,使文摘信息能用于信息检索,全文文本数据信息能用于改进检索,在检索过程中发现或通过申请人引用的著录项目参考资料来获得图形信息。
4、数据的应用
文献部从DocDB数据库中提取数据,用于更新EPOQUE系统的EPODOC(EPODOCumentation)数据库和为公众服务的Esp@cenet网站提供数据以及制作专利信息产品,如INPADOC系列产品和ESPACE系列专利信息光盘等。
三、对欧洲专利局数据收集。加工和应用体系的认识
1.数据收集工作组织严密
欧洲专利局的数据收集工作组织严密,分工明确,各部门根据自身的条件承担相应的工作,职责明确并保持密切联系。欧洲专利局以欧洲和国际事务部为龙头,与文献部、信息系统部和维也纳分局组成四位一体、分工明确的数据收集。加工和应用体系。数据进出口及中间各环节单一明确,这有利于减少由于从事数据收集、加工和应用的部门过多,相互信息沟通不畅而造成的数据重复引进,数据格式不一致和数据库之间不兼容并且相互矛盾的现象。
2.以使用者的需求为目标
欧洲专利局的数据收集、加工和应用以使用者的需求为目标,充分利用所拥有数据资源。
一方面,欧洲专利局向各国以及有关机构收集尽可能完全的专利数据,对这些数据进行加工后,建立EPODOC数据库,并采用EPOQUE系统的高级检索功能为审查员提供专业服务。
另一方面,欧洲专利局将这些数据以较为简单的检索方式以及一定的限制措施通过著名的esp@cenet网站提供给公众使用,以便最大程度地为公众提供专利信息服务和促进专利信息的传播和利用。
作为发展中国家,与发达国家相比,我国在数据收集、加工和应用方面尚有差距,通过学习发达国家的先进经验,进一步完善和提高我国专利信息数据处理、加工和应用的水平,将对我国全面提升公众专利信息应用水平和增强企业创新能力有着重要意义。 |