马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
目前的常规检索系统例如百度、google及各专利搜索网站等都是采用关键词部分或全部匹配来获得检索结果,即词义搜索,而无法根据关键词的意思推理来进行语义检索。Patentics发现词与词之间在某些文档中以某种模式同时出现是有特殊含义的。例如,“沙发”与“靠枕”(图1);“苹果”与“草莓”(图2)在很多文献中共现代表了它们之间有重要联系。Patentics通过分析上千万篇中英文文档,通过统计获得了词条之间的共现情况,而计算出了词条的相关度。选择中国专利,在页面的右下部分输入“沙发”或“苹果”即可获得相关词条。这个技术目前在搜索技术领域是独一无二的。

而文档则是词条的有机组合,组合词条的相关度也就能够获得了文档的相关度。所以相关度是patentics的重要特点,patentics能够技术数据库中的所有文献与任何文字内容的相关度,该文字的语种目前是中文和英文,文字的长度可以是一个词,短语,多个词或短语,句子,段落,文章。用专利号表示的就是这个专利的整个文章。根据这些相关度则可以将相同的检索结果按照不同的关注点来排序。所以理解patentics的排序功能是非常重要的。

常用模式1:直接输入公开号,代表了将所有文献按照与该公开号所对应的文档的相关度来排序。例如施耐德电器与正泰的无效官司:
http://www.patentics.com/help/invalid_en.htm

或者直接输入一段文字,例如某个权利要求
例如Patentics与专利复审委的无效对比案例(2)中的第二个案例:
http://www.patentics.com/help/invalidcases_en.htm

常用模式2:先利用常规检索方式获得一个检索结果,然后将检索结果根据某个文档来排序。一般情况是将必须要出现的词作为关键词并添加一些其他条件例如公开时间等作为常规检索方式。
表达式例如是:  b/某个关键词 and r/某个公开号
例如Patentics与专利复审委的无效对比案例(2)中的第一个案例:
http://www.patentics.com/help/invalidcases_en.htm

或者也可以采用这样的表达式: b/某个关键词 and  r/某个权利要求的全文
例如Patentics与专利复审委的无效对比案例(1)中的第四个案例:
http://www.patentics.com/help/intelligent_en.htm
分享到 :
0 人收藏

12 个回复

倒序浏览
alex_wuzu  专利工程师/助理 | 2009-2-26 17:47:40

Re:为了便于更好的理解Patentics,简单介绍Patentics的基本原理

谢谢lz的解惑!偶再学习学习。刚在另外一篇文章里给你留言提问了,呵呵。
另外,词条相关度和文档相关度的概念及应用,在语义技术里面是早就出现了的,并且在某些专业领域早就开始应用并取得了很好效果。我也只是了解皮毛,例如波音的飞机领域本体库、生物信息学中的gene ontology库。
知识检索(Knowledge retrieval)的概念也是早就有的,但是,patentics所做的工作,确实很是让人期待啊。
广告位说明
jeffgao  新手上路 | 2009-2-26 18:35:36

Re:为了便于更好的理解Patentics,简单介绍Patentics的基本原理

楼主你好!

词语共现的确是一种比较重要的相关性判断的方式。就这一方法本身而言,应该是业内
的common practice了。

我想,patentic的价值主要还是在于它的共现模型是基于海量专利数据获得的,这使得共现信息所反映的词语概念关联强度也更高一些。这也使得这一模型在提供相关词/短语乃至判断文档相关性时具备了较可靠的基础。

是以讨论。
patentics  注册会员 | 2009-2-26 19:11:05

Re:为了便于更好的理解Patentics,简单介绍Patentics的基本原理

jeffgao wrote:
楼主你好!

词语共现的确是一种比较重要的相关性判断的方式。就这一方法本身而言,应该是业内
的common practice了。

我想,patentic的价值主要还是在于它的共现模型是基于海量专利数据获得的,这使得共现信息所反映的词语概念关联强度也更高一些。这也使得这一模型在提供相关词/短语乃至判断文档相关性时具备了较可靠的基础。

是以讨论。
楼上说得对,“词语共现的确common practice” 但问题是如何去对共现现象进行高精度的数学模型,如何对复杂的数学模型进行高精度的求解。比如我们对美国库的数学模型需对数万G(30000 Gigabytes)的方程组(矩阵)求解,这在现有硬件条件下是不可能的!因此,许多现有技术都是大大简化,因此失去可用性!而我们是系统地解决了许多非常challenging的问题。Patentics里面有300万的高精度的语义向量正则库通过超海量分布计算出来的(Super computatioanl intelligence)。
patentics  注册会员 | 2009-2-26 19:44:30

Re:为了便于更好的理解Patentics,简单介绍Patentics的基本原理

alex_wuzu wrote:
谢谢lz的解惑!偶再学习学习。刚在另外一篇文章里给你留言提问了,呵呵。
另外,词条相关度和文档相关度的概念及应用,在语义技术里面是早就出现了的,并且在某些专业领域早就开始应用并取得了很好效果。我也只是了解皮毛,例如波音的飞机领域本体库、生物信息学中的gene ontology库。
知识检索(Knowledge retrieval)的概念也是早就有的,但是,patentics所做的工作,确实很是让人期待啊。
我们的方法与上述的方法都不同。上述的方法是借助于通过人(专家委员会)预定的有限规则定义出一组有限的词汇(ontology、RDF等)来处理。由于需要人的介入,在海量、动态的文本数据面前,这些方法都不能对付。我们称这类方法为top-down系统。而我们的方法是bottom-up系统,我们通过feed我们的数学模型器大量的文本,没有任何人工干预,自动发现、求解复杂的数学关系。而且文本数据越多,求解得到的数学关系越可靠!

其实,许多AI的fancy terms早就有了,但实用性都有问题。Patentics是我们做的一种新的尝试,我们称为Numerical Intelligence。与离散的、逻辑的、规则的传统AI不同,Patentics是连续的、计算的、方程的。因在Patentics中,文本关系可以用一组带小数点的数来表示。

Patentics当然还有许多不足之处,但从最基本(Underlying foundations)的面来说,Patentics的方法是很有希望的。
asdfg   | 2009-4-21 21:42:25
提示: 作者被禁止或删除 内容自动屏蔽
patentics  注册会员 | 2009-4-21 22:07:17

Re:为了便于更好的理解Patentics,简单介绍Patentics的基本原理

对,目前系统是这样设置的,如果直接进行概念检索给出最相关的400个结果。
但如果希望看到能多的结果也是可以的,例如先用常规的布尔检索方式获得结果,然后用你关心的内容的排序。例如b/cdma and r/cn1509091。就可以看到所有全文中包括“cdma”的文献,并且这些文献是按照与cn1509091的相关度来排序的。
另外,如果你在检索过程中有什么问题,我们非常愿意倾听,并会尽量去解决。谢谢。
t95014  新手上路 | 2009-4-22 06:03:37

Re:为了便于更好的理解Patentics,简单介绍Patentics的基本原理

asdfg wrote:
这个系统有个缺点,概念检索只能显示400条,无论你怎么检索,检索结果总是只有400条。
与其给我不相关的10000条结果去读,不如给我最相关的10条。400条都多!
你说呢?
voxon  注册会员 | 2009-4-22 16:09:00

Re:为了便于更好的理解Patentics,简单介绍Patentics的基本原理

这个系统挺好的

不过我有个忧虑,这东西会不会正好落在别人申请在先的专利上?
好像日本人在中国、美国已经埋伏下大量这样的专利地雷了,不知道你们是不是有什么应对措施(有些甚至是10年前就埋伏下了,让人不寒而栗)

还有,听描述,该是用了向量空间模型了吧。
stxiong  注册会员 | 2009-4-22 22:03:49

Re:为了便于更好的理解Patentics,简单介绍Patentics的基本原理

c/cn1429748 and DI/20011228检索出来的文献(400篇)没有用国家局检索系统得到的最接近的文件。请哪位指导?
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|( 冀ICP备05010901号 )|博派知识产权

Powered by Discuz! X3.4 © 2001-2016 Comsenz Inc.

返回顶部