专利转让平台_买专利_卖专利_中国高校专利技术交易-买卖发明专利上知查网

全部分类
全部分类
一种基于维基百科双向链接的词语语义相关度判断方法

一种基于维基百科双向链接的词语语义相关度判断方法

IPC分类号 : G06F17/27,G06F16/30

申请号
CN201811108647.0
可选规格
  • 专利类型: 发明专利
  • 法律状态: 有权
  • 申请日: 2018-09-21
  • 公开号: CN109325230B
  • 公开日: 2019-02-12
  • 主分类号: G06F17/27
  • 专利权人: 广西师范大学

专利摘要

本发明公开了一种基于维基百科双向链接的词语语义相关度判断方法,对于任意两个词语有:S1.在维基百科数据资源库中分别获取两个词语的定位页面;S2.若定位页面为内容页面,即是义项页面,转S3;若定位页面为消歧页面,进行消岐处理,转S3;S3.计算出两个词语每一个义项页面的概念语义解释,概念语义解释为一个双向链接向量;S4.计算两个词语义项页面间的双向链接向量的余弦,获得每一对义项概念间的语义相关度,将最大值作为两个词语的语义相关度。本发明把维基百科中页面的入链接和出链接作为页面特征,构建描述概念语义的特征向量模型,并结合一种基于社会认知度的消岐策略,提高了基于维基百科链接的词语语义相关度计算的准确度。

权利要求

1.一种基于维基百科双向链接的词语语义相关度判断方法,其特征在于:

对于任意的两个词语word1和word2的语义相关度,通过以下步骤进行判断:

S1.在维基百科数据资源库中分别获取两个词语的定位页面;

S2.若步骤S1获得的定位页面属于内容页面,则定位页面即是义项页面,此时该词语的义项页面序列数目为1,转步骤S3;若定位页面属于消歧页面,则先使用消岐算法进行消岐处理,获得多个义项页面,然后转步骤S3;

S3.计算出两个词语每一个义项页面的基于维基百科双向链接向量的概念语义解释,所述概念语义解释定义为一个维基百科双向链接向量Vc,该向量由两种类型的加权链接组成,即概念c的加权外链接和加权内链接;

S4.通过步骤S3计算的结果,计算两个词语义项页面间的双向链接向量的余弦,从而获得两个词语的每一对义项概念间的语义相关度,并将其中的最大值作为word1和word2的语义相关度;

所述步骤S2中,使用消岐算法进行消岐处理包括以下步骤:

S2-1.排序策略:使用基于社会认知度的排序策略对消歧页面中的外链接进行排序,所述基于社会认知度的排序策略是指直接按照外链接在消歧页面中出现的顺序对其进行排序;

S2-2.队列插队策略:优先选择消歧页面中包含了两个待比较词word1和word2的链接插入到步骤S2-1的队列前面:(1)首先选择消歧页面中链接形如“word1(word2)”或“word2(word1)”插入到步骤S2-1中已经排序过的队列前面;(2)如果没有如(1)的链接出现,则检索包含word1和word2的链接,并将其插入到步骤S2-1中队列的前面;

S2-3.有效项义项数量的选择策略:采用可调节的消歧阈值θ,来确定将从消歧页面中选择多少外链接作为有效项义项参与相关度计算,θ取值为1到外链接总数。

2.根据权利要求1所述的基于维基百科双向链接的词语语义相关度判断方法,其特征在于:

所述步骤S1中,获取定位页面包括以下步骤:

S1-1.若词语word只能检索到一个页面,则直接确定该页面为word的唯一定位页面;

S1-2.若词语word可以检索到多个页面,且存在标题为“word+(disambiguation)”或类目属于“Disambiguation pages”的页面,则把该页面加入到word定位页面序列,并结束页面定位,否则转步骤S1-3;

S1-3.若词语word可以检索到多个页面,且存在从word重定向的页面,则选取该重定向的页面加入到word的定位序列,然后结束页面定位,否则转步骤S1-4;

S1-4.若词语word可以检索到多个页面,且存在标题与word完全一致的页面,则把该页面加入word的定位页面序列;

对词语的维基百科页面定位过程结束后,最终的定位页面序列由1个页面组成,页面类型为内容页面或消歧页面。

3.根据权利要求1所述的基于维基百科双向链接的词语语义相关度判断方法,其特征在于:

所述步骤S3中,概念语义解释的计算方法为:

S3-1.所述维基百科双向链接向量Vc的计算方法如下:

Vc={twc(x)|x∈OutLink(c)∪InLink(c)} (1)

其中OutLink(c)和InLink(c)分别表示概念c在维基百科所对应页面的外链接和内链接的集合;函数twc(x)表示的是基于双向链接的权重,用以表示向量Vc中实体x与给定概念c之间的相互关联的强度,twc(x)计算如步骤S3-2所示:

S3-2.对于概念c的概念语义解释向量Vc中的任何实体x,被分配基于双向链接的权重,计算如下:

twc(x)=w(c→x)+w(x→c) (2)

其中c→x and x→c分别表示概念语义解释向量Vc中的实体x和给定概念c之间的两种类型的链接;实体x和概念c之间可能只有一个链接关系,它是给定的概念c链接到其外链接实体x或内链接实体x链接到给定概念c;实体x和c之间也可能存在两种链接关系,它们在对应的文章中相互链接;两种链接关系x→c和c→x的权重w(c→x)和w(x→c)统一按照步骤S3-3的方法来计算:

S3-3.设P是维基百科中所有概念页面的集合,T是链接到b的所有页面的集合,则链接a→b的权重w(a→b)计算如下:

其中,b是在概念页面a中具有外部链接的概念,Suma→b(b)表示概念b在概念页面a中出现总次数;所述概念页面a是指标题为概念a的维基百科页面。

4.根据权利要求3所述的基于维基百科双向链接的词语语义相关度判断方法,其特征在于:

所述步骤S4中,设为维基百科中概念c1和c2的两个概念语义解释的双向链接向量,则向量的余弦度量,计算如下:

其中,twc(x)是指概念c的语义解释向量Vc中实体x的基于维基百科双向链接的权重。

一种基于维基百科双向链接的词语语义相关度判断方法专利购买费用说明

专利买卖交易资料

Q:办理专利转让的流程及所需资料

A:专利权人变更需要办理著录项目变更手续,有代理机构的,变更手续应当由代理机构办理。

1:专利变更应当使用专利局统一制作的“著录项目变更申报书”提出。

2:按规定缴纳著录项目变更手续费。

3:同时提交相关证明文件原件。

4:专利权转移的,变更后的专利权人委托新专利代理机构的,应当提交变更后的全体专利申请人签字或者盖章的委托书。

Q:专利著录项目变更费用如何缴交

A:(1)直接到国家知识产权局受理大厅收费窗口缴纳,(2)通过代办处缴纳,(3)通过邮局或者银行汇款,更多缴纳方式

Q:专利转让变更,多久能出结果

A:著录项目变更请求书递交后,一般1-2个月左右就会收到通知,国家知识产权局会下达《转让手续合格通知书》。

动态评分

0.0

没有评分数据
没有评价数据
×

打开微信,点击底部的“发现”

使用“扫一扫”即可将网页分享至朋友圈

×
复制
用户中心
我的足迹
我的收藏

您的购物车还是空的,您可以

  • 微信公众号

    微信公众号
在线留言
返回顶部