专利摘要
本发明公开了一种标签传播的聚类方法、终端设备、存储介质及装置,该方法包括:获取各文本的频繁词;从样本文本集中提取所述文本的文本信息,根据所述文本信息通过预设映射关系构建异质文本网络;将所述异质文本网络中对应的文本节点通过预设节点影响力关系生成节点影响力阈值,根据所述节点影响力阈值获取目标标签;在所述异质文本网络中通过预设总相似度关系生成所述文本之间的总相似度阈值,根据所述总相似度阈值获取目标文本节点;将所述目标标签在所述目标文本节点之间进行传播,并将具有相同所述目标标签对应的文本进行聚类,以获得聚类结果簇。本发明技术方案能够解决标签传播随机性和聚类精确度及可信度低的技术问题。
权利要求
1.一种标签传播的聚类方法,其特征在于,所述标签传播的聚类方法包括以下步骤:
对样本文本集中的文本进行分词处理,以获取各文本的频繁词;
从所述样本文本集中提取所述文本的文本信息,根据所述文本信息通过预设映射关系构建异质文本网络;
将所述异质文本网络中对应的文本节点通过预设节点影响力关系生成节点影响力阈值,根据所述节点影响力阈值获取目标标签;
在所述异质文本网络中通过预设总相似度关系生成所述文本之间的总相似度阈值,根据所述总相似度阈值获取目标文本节点;
将所述目标标签在所述目标文本节点之间进行传播,并将具有相同所述目标标签对应的文本进行聚类,以获得聚类结果簇;
所述将所述目标标签在所述目标文本节点之间进行传播,并将具有相同所述目标标签对应的文本进行聚类,以获得聚类结果簇,具体包括:
若所述目标文本节点为所述异质文本网络中有向边的目标文本节点,则将所述目标标签在所述目标文本节点之间依据所述有向边的方向进行传播;
若所述目标文本节点为所述异质文本网络中无向边或者双向边的目标文本节点,根据所述目标文本节点对应的节点影响力阈值进行排序并获得排序结果,将所述目标标签在所述目标文本节点之间依据所述排序结果进行传播;
将具有相同所述目标标签对应的文本进行聚类,以获得聚类结果簇。
2.如权利要求1所述的标签传播的聚类方法,其特征在于,所述对样本文本集中的文本进行分词处理,以获取各文本的频繁词,具体包括:
通过FNLP对所述样本文本集中的文本进行分词及词性标注操作,以获得特征词;
对所述特征词进行TF-IDF运算,以获得所述特征词的词频及逆文档频率;
根据所述词频及所述逆文档频率,通过预设权重对应关系生成所述特征词的权重阈值;
将所述特征词的权重阈值与预设频繁词阈值进行比较,根据比较结果获取目标特征词,以将所述目标特征词作为所述文本的频繁词。
3.如权利要求1所述的标签传播的聚类方法,其特征在于,所述从所述样本文本集中提取所述文本的文本信息,根据所述文本信息通过预设映射关系构建异质文本网络,具体包括:
从所述样本文本集中提取所述文本的文本信息;
根据所述文本信息通过预设映射关系,将具有所述文本信息的文本节点之间设置为有向边,以构建异质文本网络。
4.如权利要求1至3任意一项所述的标签传播的聚类方法,其特征在于,所述将所述异质文本网络中对应的文本节点通过预设节点影响力关系生成节点影响力阈值,根据所述节点影响力阈值获取目标标签,具体包括:
将所述异质文本网络中对应的文本节点通过预设节点影响力关系生成节点影响力阈值;
将所述节点影响力阈值与预设节点影响力阈值进行比较,根据比较结果获取目标文本,以将所述目标文本的频繁词作为目标标签。
5.如权利要求1至3任意一项所述的标签传播的聚类方法,其特征在于,所述在所述异质文本网络中通过预设总相似度关系生成所述文本之间的总相似度阈值,根据所述总相似度阈值获取目标文本节点,具体包括:
根据所述频繁词与所述文本构建频繁词-文本矩阵,以获得所述文本对应的文本向量,并对所述文本向量通过预设余弦相似度关系生成所述文本之间的内在特征相似度阈值;
在所述异质文本网络中,通过预设路径相似度关系生成所述文本之间的外在特征相似度阈值;
根据所述内在特征相似度阈值及所述外在特征相似度阈值,通过预设总相似度关系生成所述文本的总相似度阈值;
根据所述总相似度阈值获取目标文本节点。
6.如权利要求5所述的标签传播的聚类方法,其特征在于,所述根据所述总相似度阈值获取目标文本节点,具体包括:
根据所述总相似度阈值;
将所述总相似度阈值与预设文本总相似度阈值进行比较,根据比较结果获取所述异质文本网络中的目标文本节点。
7.一种终端设备,其特征在于,所述终端设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的标签传播的聚类程序,所述标签传播的聚类程序被所述处理器执行时实现如权利要求1至6中任一项所述的标签传播的聚类方法的步骤。
8.一种存储介质,其特征在于,所述存储介质上存储有标签传播的聚类程序,所述标签传播的聚类程序被处理器执行时实现如权利要求1至6中任一项所述的标签传播的聚类方法的步骤。
9.一种标签传播的聚类装置,其特征在于,所述标签传播的聚类装置包括:
频繁词获取模块,用于对样本文本集中的文本进行分词处理,以获取各文本的频繁词;
异质文本网络构建模块,用于从所述样本文本集中提取所述文本的文本信息,根据所述文本信息通过预设映射关系构建异质文本网络;
目标标签获取模块,用于将所述异质文本网络中对应的文本节点通过预设节点影响力关系生成节点影响力阈值,根据所述节点影响力阈值获取目标标签;
目标文本节点获取模块,用于在所述异质文本网络中通过预设总相似度关系生成所述文本之间的总相似度阈值,根据所述总相似度阈值获取目标文本节点;
传播及聚类模块,用于将所述目标标签在所述目标文本节点之间进行传播,并将具有相同所述目标标签对应的文本进行聚类,以获得聚类结果簇;
所述传播及聚类模块,还用于在所述目标文本节点为所述异质文本网络中有向边的目标文本节点时,将所述目标标签在所述目标文本节点之间依据所述有向边的方向进行传播;
所述传播及聚类模块,还用于在所述目标文本节点为所述异质文本网络中无向边或者双向边的目标文本节点时,根据所述目标文本节点对应的节点影响力阈值进行排序并获得排序结果,将所述目标标签在所述目标文本节点之间依据所述排序结果进行传播;
所述传播及聚类模块,还用于将具有相同所述目标标签对应的文本进行聚类,以获得聚类结果簇。
说明书
技术领域
本发明涉及标签传播及聚类技术领域,尤其涉及一种标签传播的聚类方 法、终端设备、存储介质及装置。
背景技术
目前在农业生产、信息检索、金融及生物信息处理等方面,都需要针对 大量的数据信息进行处理后再进行使用,一般会使用标签进行传播处理后再 进行聚类;例如,在研究农作物虫害的分析时,需要给受害农作物进行受害 现象进行打标,然后进行判断是否属于哪一类的害虫,使用标签传播算法能 够很快的对这种现象进行聚类得到结果,最后能够针对此害虫进行补救。但 是这种标签传播算法不仅存在随机性,而且对打标处理后的数据进行聚类后 其精确度及可信度都不高。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是 现有技术。
发明内容
本发明的主要目的在于提供一种标签传播的聚类方法、终端设备、存储 介质及装置,旨在解决标签传播随机性和聚类精确度及可信度低的技术问题。
为实现上述目的,本发明提供一种标签传播的聚类方法,所述标签传播 的聚类方法包括以下步骤:
对样本文本集中的文本进行分词处理,以获取各文本的频繁词;
从所述样本文本集中提取所述文本的文本信息,根据所述文本信息通过 预设映射关系构建异质文本网络;
将所述异质文本网络中对应的文本节点通过预设节点影响力关系生成节 点影响力阈值,根据所述节点影响力阈值获取目标标签;
在所述异质文本网络中通过预设总相似度关系生成所述文本之间的总相 似度阈值,根据所述总相似度阈值获取目标文本节点;
将所述目标标签在所述目标文本节点之间进行传播,并将具有相同所述 目标标签对应的文本进行聚类,以获得聚类结果簇。
优选地,所述对样本文本集中的文本进行分词处理,以获取各文本的频 繁词,具体包括:
通过FNLP对所述样样本文本集中的文本进行分词及词性标注操作,以 获得特征词;
对所述特征词进行TF-IDF运算,以获得所述特征词的词频及逆文档频率;
根据所述词频及所述逆文档频率,通过预设权重对应关系生成所述特征 词的权重阈值;
将所述特征词的权重阈值与预设频繁词阈值进行比较,根据比较结果获 取目标特征词,以将所述目标特征词作为所述文本的频繁词。
优选地,所述从所述样本文本集中提取所述文本的文本信息,根据所述 文本信息通过预设映射关系构建异质文本网络,具体包括:
从所述样本文本集中提取所述文本的文本信息;
根据所述文本信息通过预设映射关系,将具有所述文本信息的文本节点 之间设置为有向边,以构建异质文本网络。
优选地,所述将所述异质文本网络中对应的文本节点通过预设节点影响 力关系生成节点影响力阈值,根据所述节点影响力阈值获取目标标签,具体 包括:
将所述异质文本网络中对应的文本节点通过预设节点影响力关系生成节 点影响力阈值;
将所述节点影响力阈值与预设节点影响力阈值进行比较,根据比较结果 获取目标文本,以将所述目标文本的频繁词作为目标标签。
优选地,所述在所述异质文本网络中通过预设总相似度关系生成所述文 本之间的总相似度阈值,根据所述总相似度阈值获取目标文本节点,具体包 括:
根据所述频繁词与所述文本构建频繁词-文本矩阵,以获得所述文本对应 的文本向量,并对所述文本向量通过预设余弦相似度关系生成所述文本之间 的内在特征相似度阈值;
在所述异质文本网络中,通过预设路径相似度关系生成所述文本之间的 外在特征相似度阈值;
根据所述内在特征相似度阈值及所述外在特征相似度阈值,通过预设总 相似度关系生成所述文本的总相似度阈值;
根据所述总相似度阈值获取目标文本节点。
优选地,所述根据所述总相似度阈值获取目标文本节点,具体包括:
根据所述总相似度阈值;
将所述总相似度阈值与预设文本总相似度阈值进行比较,根据比较结果 获取所述异质文本网络中的目标文本节点。
优选地,所述将所述目标标签在所述目标文本节点之间进行传播,并将 具有相同所述目标标签对应的文本进行聚类,以获得聚类结果簇,具体包括:
若所述目标文本节点为所述异质文本网络中有向边的目标文本节点,则 将所述目标标签在所述目标文本节点之间依据所述有向边的方向进行传播;
若所述目标文本节点为所述异质文本网络中无向边或者双向边的目标文 本节点,根据所述目标文本节点对应的节点影响力阈值进行排序并获得排序 结果,将所述目标标签在所述目标文本节点之间依据所述排序结果进行传播;
将具有相同所述目标标签对应的文本进行聚类,以获得聚类结果簇。
此外,为实现上述目的,本发明还提出一种终端设备,所述终端设备包 括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的标签 传播的聚类程序,所述标签传播的聚类程序被所述处理器执行时实现如上文 所述的标签传播的聚类方法的步骤。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上 存储有标签传播的聚类程序,所述标签传播的聚类程序被处理器执行时实现 如上文所述的标签传播的聚类方法的步骤。
此外,为实现上述目的,本发明还提出一种标签传播的聚类装置,所述 标签传播的聚类装置包括:
频繁词获取模块,用于对样本文本集中的文本进行分词处理,以获取各 文本的频繁词;
异质文本网络构建模块,用于从所述样本文本集中提取所述文本的文本 信息,根据所述文本信息通过预设映射关系构建异质文本网络;
目标标签获取模块,用于将所述异质文本网络中对应的文本节点通过预 设节点影响力关系生成节点影响力阈值,根据所述节点影响力阈值获取目标 标签;
目标文本节点获取模块,用于在所述异质文本网络中通过预设总相似度 关系生成所述文本之间的总相似度阈值,根据所述总相似度阈值获取目标文 本节点;
传播及聚类模块,用于将所述目标标签在所述目标文本节点之间进行传 播,并将具有相同所述目标标签对应的文本进行聚类,以获得聚类结果簇。
本发明中,通过对样本文本集中的文本进行分词处理,以获取各文本的 频繁词;从所述样本文本集中提取所述文本的文本信息,根据所述文本信息 通过预设映射关系构建异质文本网络;将所述异质文本网络中对应的文本节 点通过预设节点影响力关系生成节点影响力阈值,根据所述节点影响力阈值 获取目标标签;在所述异质文本网络中通过预设总相似度关系生成所述文本 之间的总相似度阈值,根据所述总相似度阈值获取目标文本节点;将所述目 标标签在所述目标文本节点之间进行传播,并将具有相同所述目标标签对应 的文本进行聚类,以获得聚类结果簇。本发明技术方案能够解决标签传播随 机性和聚类精确度及可信度低的技术问题。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的终端设备结构示意图;
图2为本发明标签传播的聚类方法第一实施例的流程示意图;
图3为本发明标签传播的聚类方法第二实施例的流程示意图;
图4为本发明标签传播的聚类装置第一实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步 说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限 定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的终端设备结构 示意图。
如图1所示,该终端设备可以包括:处理器1001,例如中央处理器(CentralProcessing Unit,CPU),通信总线1002、用户接口1003,网络接口1004, 存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户 接口1003可以包括显示屏(Display),可选用户接口1003还可以包括标准 的有线接口、无线接口,对于用户接口1003的有线接口在本发明中可为USB 接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保 真(WIreless-FIdelity,WI-FI)接口)。存储器1005可以是高速的随机存取 存储器(Random Access Memory,RAM)存储器,也可以是稳定的存储器 (Non-volatileMemory,NVM),例如磁盘存储器。存储器1005可选的还可 以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对终端设备的限 定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部 件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系 统、网络通信模块、用户接口模块以及标签传播的聚类程序。
在图1所示的终端设备中,网络接口1004主要用于连接后台服务器,与 所述后台服务器进行数据通信;用户接口1003主要用于连接外设,与所述外 设进行数据通信;所述终端设备通过处理器1001调用存储器1005中存储的 标签传播的聚类程序,并执行本发明实施例提供的标签传播的聚类方法。
对样本文本集中的文本进行分词处理,以获取各文本的频繁词;
从所述样本文本集中提取所述文本的文本信息,根据所述文本信息通过 预设映射关系构建异质文本网络;
将所述异质文本网络中对应的文本节点通过预设节点影响力关系生成节 点影响力阈值,根据所述节点影响力阈值获取目标标签;
在所述异质文本网络中通过预设总相似度关系生成所述文本之间的总相 似度阈值,根据所述总相似度阈值获取目标文本节点;
将所述目标标签在所述目标文本节点之间进行传播,并将具有相同所述 目标标签对应的文本进行聚类,以获得聚类结果簇。
进一步地,处理器1001可以调用存储器1005中存储的标签传播的聚类 程序,还执行以下操作:
通过FNLP对所述样样本文本集中的文本进行分词及词性标注操作,以 获得特征词;
对所述特征词进行TF-IDF运算,以获得所述特征词的词频及逆文档频率;
根据所述词频及所述逆文档频率,通过预设权重对应关系生成所述特征 词的权重阈值;
将所述特征词的权重阈值与预设频繁词阈值进行比较,根据比较结果获 取目标特征词,以将所述目标特征词作为所述文本的频繁词。
进一步地,处理器1001可以调用存储器1005中存储的标签传播的聚类 程序,还执行以下操作:
从所述样本文本集中提取所述文本的文本信息;
根据所述文本信息通过预设映射关系,将具有所述文本信息的文本节点 之间设置为有向边,以构建异质文本网络。
进一步地,处理器1001可以调用存储器1005中存储的标签传播的聚类 程序,还执行以下操作:
将所述异质文本网络中对应的文本节点通过预设节点影响力关系生成节 点影响力阈值;
将所述节点影响力阈值与预设节点影响力阈值进行比较,根据比较结果 获取目标文本,以将所述目标文本的频繁词作为目标标签。
进一步地,处理器1001可以调用存储器1005中存储的标签传播的聚类 程序,还执行以下操作:
根据所述频繁词与所述文本构建频繁词-文本矩阵,以获得所述文本对应 的文本向量,并对所述文本向量通过预设余弦相似度关系生成所述文本之间 的内在特征相似度阈值;
在所述异质文本网络中,通过预设路径相似度关系生成所述文本之间的 外在特征相似度阈值;
根据所述内在特征相似度阈值及所述外在特征相似度阈值,通过预设总 相似度关系生成所述文本的总相似度阈值;
根据所述总相似度阈值获取目标文本节点。
进一步地,处理器1001可以调用存储器1005中存储的标签传播的聚类 程序,还执行以下操作:
根据所述总相似度阈值;
将所述总相似度阈值与预设文本总相似度阈值进行比较,根据比较结果 获取所述异质文本网络中的目标文本节点。
进一步地,处理器1001可以调用存储器1005中存储的标签传播的聚类 程序,还执行以下操作:
若所述目标文本节点为所述异质文本网络中有向边的目标文本节点,则 将所述目标标签在所述目标文本节点之间依据所述有向边的方向进行传播;
若所述目标文本节点为所述异质文本网络中无向边或者双向边的目标文 本节点,根据所述目标文本节点对应的节点影响力阈值进行排序并获得排序 结果,将所述目标标签在所述目标文本节点之间依据所述排序结果进行传播;
将具有相同所述目标标签对应的文本进行聚类,以获得聚类结果簇。
在本实施例中,通过对样本文本集中的文本进行分词处理,以获取各文 本的频繁词;从所述样本文本集中提取所述文本的文本信息,根据所述文本 信息通过预设映射关系构建异质文本网络;将所述异质文本网络中对应的文 本节点通过预设节点影响力关系生成节点影响力阈值,根据所述节点影响力 阈值获取目标标签;在所述异质文本网络中通过预设总相似度关系生成所述 文本之间的总相似度阈值,根据所述总相似度阈值获取目标文本节点;将所 述目标标签在所述目标文本节点之间进行传播,并将具有相同所述目标标签 对应的文本进行聚类,以获得聚类结果簇。本发明技术方案能够解决标签传 播随机性和聚类精确度及可信度低的技术问题。
基于上述硬件结构,提出本发明标签传播的聚类方法的实施例。
参照图2,图2为本发明标签传播的聚类方法第一实施例的流程示意图, 提出本发明标签传播的聚类方法第一实施例。
在第一实施例中,所述标签传播的聚类方法包括以下步骤:
步骤S10:对样本文本集中的文本进行分词处理,以获取各文本的频繁词。
可以理解的是,本实施例中,所述文本是指书面语言的表现形式,从文 学角度说,通常是具有完整、系统含义的一个句子或多个句子的组合;一个 文本可以是一个句子、一个段落或者一个篇章,此处不再一一赘述。
在具体实现中,预先采集样本文本集,对样本文本集中的文本进行分词 及词性标注操作以获得特征词,根据所述特征词获得其词频及逆文档频率, 再根据所述预设权重对应关系以获取各文本的频繁词。
步骤S20:从所述样本文本集中提取所述文本的文本信息,根据所述文本 信息通过预设映射关系构建异质文本网络。
需要说明的是,本实施例中,所述文本信息包括文本的作者之间的关注 信息、文本点赞、转发及引用的信息等,此处不再一一赘述。
在具体实现中,从所述样本文本集中提取所述文本的文本信息,根据所 述文本信息通过预设映射关系,将具有所述文本信息的文本节点之间设置为 有向边,以构建异质文本网络。
步骤S30:将所述异质文本网络中对应的文本节点通过预设节点影响力关 系生成节点影响力阈值,根据所述节点影响力阈值获取目标标签。
需要说明的是,本实施例中,根据所述节点影响力阈值,将所述节点影 响力阈值与预设节点影响力阈值进行比较,根据比较结果获取目标文本,以 将所述目标文本的频繁词作为目标标签。
步骤S40:在所述异质文本网络中通过预设总相似度关系生成所述文本之 间的总相似度阈值,根据所述总相似度阈值获取目标文本节点。
需要说明的是,本实施例中,根据所述频繁词及所述预设余弦相似度关 系获得所述内在特征相似度阈值;同时在所述异质文本网络中通过所述预设 路径相似度关系获得所述外在特征相似度阈值,最后根据所述内在特征相似 度阈值及所述外在特征相似度阈值,通过预设总相似度关系生成所述文本的 总相似度阈值以获取目标文本节点。
步骤S50:将所述目标标签在所述目标文本节点之间进行传播,并将具有 相同所述目标标签对应的文本进行聚类,以获得聚类结果簇。
需要说明的是,本实施例中,引用标签传播算法,将所述目标标签在所 述目标文本节点之间进行传播,最后将具有相同所述目标标签对应的文本进 行聚类,以获得聚类结果簇直至整个过程结束。
值得说明的是,本实施例中,引入了加权有向异质文本网络,挖掘文本 的多维特征进行相似性计算,提高了聚类结果的精确度和可信度。
在第一实施例中,通过对样本文本集中的文本进行分词处理,以获取各 文本的频繁词;从所述样本文本集中提取所述文本的文本信息,根据所述文 本信息通过预设映射关系构建异质文本网络;将所述异质文本网络中对应的 文本节点通过预设节点影响力关系生成节点影响力阈值,根据所述节点影响 力阈值获取目标标签;在所述异质文本网络中通过预设总相似度关系生成所 述文本之间的总相似度阈值,根据所述总相似度阈值获取目标文本节点;将 所述目标标签在所述目标文本节点之间进行传播,并将具有相同所述目标标 签对应的文本进行聚类,以获得聚类结果簇。本发明技术方案能够解决标签 传播随机性和聚类精确度及可信度低的技术问题。
参照图3,图3为本发明标签传播的聚类方法第二实施例的流程示意图, 基于上述图2所示的第一实施例,提出本发明标签传播的聚类方法的第二实 施例。
在第二实施例中,所述步骤S10,具体包括:
步骤S11:通过FNLP(基于机器学习的中文自然语言文本处理的开发工 具包)对所述样样本文本集中的文本进行分词及词性标注操作,以获得特征 词;对所述特征词进行TF-IDF(Term frequency-inverse document frequency, 用于信息检索与数据挖掘的常用加权技术,其中,TF意思是词频Term Frequency,IDF意思是逆文本频率指数InverseDocument Frequency)运算, 以获得所述特征词的词频及逆文档频率。
需要说明的是,本实施例中,采用TF-IDF运算即如下计算公式 及 获得所述词频tfij及所述逆文档频率 idfi,其中i及j均为正整数。
步骤S12:根据所述词频及所述逆文档频率,通过预设权重对应关系生成 所述特征词的权重阈值;将所述特征词的权重阈值与预设频繁词阈值进行比 较,根据比较结果获取目标特征词,以将所述目标特征词作为所述文本的频 繁词。
需要说明的是,本实施例中,采用所述预设权重对应关系即如下计算公 式Wi=tfij*idfi获得所述特征词的权重阈值wi,将所述特征词的权重阈值wi与所述预设频繁词阈值进行比较,挖掘所述权重阈值wi大于所述预设频繁词 阈值的特征词作为所述文本的频繁词fi。
进一步地,所述步骤S20,具体包括:
步骤S21:从所述样本文本集中提取所述文本的文本信息。
需要说明的是,本实施例中,所述文本信息包括文本的作者之间的关注 信息、文本点赞、转发及引用的信息等,此处不再一一赘述;其中,将每一 个文本及其对应的作者分别作为节点。
步骤S22:根据所述文本信息通过预设映射关系,将具有所述文本信息的 文本节点之间设置为有向边,以构建异质文本网络。
需要说明的是,本实施例中,针对标明具有关注关系的两作者节点、具 有转发关系的作者节点与被转发的文本节点以及标明具有引用关系的文本节 点,将具有以上对应的预设映射关系情况的节点之间新增一条有向边;另外 对于没有标明具有关注关系的作者节点,若存在一个作者点赞或者评论另一 个作者所述文本数量的百分比超过预设关注概率阈值,则新增一条有向边, 其抽象表示如下:
If(ui点赞or评论dj)
{
网络中新增边ui→dj;
}
If(ui关注uj)
{
网络中新增边ui→uj;
}
Else if(ui not关注uj and ui关注uj的关联概率大于所述预设关注概率 阈值)
{
网络中新增边ui→uj
}
依据以上规则构建二维异质文本网络。具体网络中不同边对应关系表如 下:
易于理解的是,还可根据多个节点及其特征信息构建多维异质文本网络, 此处不再一一赘述。
进一步地,所述步骤S30,具体包括:
步骤S31:将所述异质文本网络中对应的文本节点通过预设节点影响力关 系生成节点影响力阈值。
需要说明的是,本实施例中,采用所述预设节点影响力关系即如下计算 公式 获得所述节点影响力阈值;其中第i节点及第j节点 直接相连则aij=1,否则为0;kj代表第j节点的度数, 代表第i节点随机 游走到第j节点的概率;初始状态下除起始节点g外的所有节点的si(0)=1, 而sg(0)=0;最后将节点g的节点影响力阈值平均分给其他N个节点,计算 公式如下:Si=si(tc)+sg(tc)·N-1;其中,sg(tc)是稳定状态下节点g的节点影 响力阈值,tc表示收敛次数。
步骤S32:将所述节点影响力阈值与预设节点影响力阈值进行比较,根据 比较结果获取目标文本,以将所述目标文本的频繁词作为目标标签。
需要说明的是,本实施例中,对于所述节点影响力阈值大于所述预设节 点影响力阈值的文本节点,挖掘其对应的文本以获得目标文本,并将所述目 标文本的频繁词作为目标标签。
进一步地,所述步骤S40,具体包括:
步骤S41:根据所述频繁词与所述文本构建频繁词-文本矩阵,以获得所 述文本对应的文本向量,并对所述文本向量通过预设余弦相似度关系生成所 述文本之间的内在特征相似度阈值。
需要说明的是,本实施例中,将挖掘的所述频繁词fi与所述文本构建频 繁词-文本矩阵M,其中M为0-1矩阵,M的表现形式为:
通过衡量所述文本中是否含有所述频繁词来赋予抽象表示如下:If(频繁词fi∈df)
{
M[i][j]=1;
}
else
{
M[i][j]=0;
}
其中使得每一个文本dj的表现形式为由0、1构成的n维文本向量表示, 表现形式如下:df={1,0,...,};再利用所述预设余弦相似度关系计算所述文本 之间的内在特征相似度阈值SIndij,其中,所述预设余弦相似度关系的计算公 式如下: 即计算每一个所述n维向量与这个向量 之间的余弦值。
步骤S42:在所述异质文本网络中,通过预设路径相似度关系生成所述文 本之间的外在特征相似度阈值。
需要说明的是,本实施例中,根据每一条加权有向边元路径 中,每一个包含所述文本信息关系R上的属性函数 δl(Rl)是一个确定的值,使用所述预设路径相似度关系计算出作者节点之间的 相似度,即计算所述文本的外在特征相似度SOutdij公式如下所示:
其中P为元路径,相同类 型对象为x和y。
步骤S43:根据所述内在特征相似度阈值及所述外在特征相似度阈值,通 过预设总相似度关系生成所述文本的总相似度阈值;将所述总相似度阈值与 预设文本总相似度阈值进行比较,根据比较结果获取所述异质文本网络中的 目标文本节点。
需要说明的是,本实施例中,采用所述预设总相似度关系即如下计算公 式Sdij=SIndij*WIn+SOutdij*WOut获得所述总相似度阈值Sdij,其中WIn、WOut分别 为赋予内在特征相似性的权重及外在特征相似性的权重;将所述总相似度阈 值大于所述预设文本总相似度阈值的所述异质文本网络中的文本节点作为目 标文本节点。
进一步地,所述步骤S50,具体包括:
步骤S51:若所述目标文本节点为所述异质文本网络中有向边的目标文本 节点,则将所述目标标签在所述目标文本节点之间依据所述有向边的方向进 行传播;将具有相同所述目标标签对应的文本进行聚类,以获得聚类结果簇。
步骤S52:若所述目标文本节点为所述异质文本网络中无向边或者双向边 的目标文本节点,根据所述目标文本节点对应的节点影响力阈值进行排序并 获得排序结果,将所述目标标签在所述目标文本节点之间依据所述排序结果 进行传播;将具有相同所述目标标签对应的文本进行聚类,以获得聚类结果 簇。
需要说明的是,本实施例中,所述排序结果是根据所述目标文本节点对 应的节点影响力阈值降序排列获得的排序结果。
在第二实施例中,通过对样本文本集中的文本进行分词处理,以获取各 文本的频繁词;从所述样本文本集中提取所述文本的文本信息,根据所述文 本信息通过预设映射关系构建异质文本网络;将所述异质文本网络中对应的 文本节点通过预设节点影响力关系生成节点影响力阈值,根据所述节点影响 力阈值获取目标标签;在所述异质文本网络中通过预设总相似度关系生成所 述文本之间的总相似度阈值,根据所述总相似度阈值获取目标文本节点;将 所述目标标签在所述目标文本节点之间进行传播,并将具有相同所述目标标 签对应的文本进行聚类,以获得聚类结果簇。本发明技术方案能够解决标签 传播随机性和聚类精确度及可信度低的技术问题。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有标签 传播的聚类程序,所述标签传播的聚类程序被处理器执行时实现如下操作:
对样本文本集中的文本进行分词处理,以获取各文本的频繁词;
从所述样本文本集中提取所述文本的文本信息,根据所述文本信息通过 预设映射关系构建异质文本网络;
将所述异质文本网络中对应的文本节点通过预设节点影响力关系生成节 点影响力阈值,根据所述节点影响力阈值获取目标标签;
在所述异质文本网络中通过预设总相似度关系生成所述文本之间的总相 似度阈值,根据所述总相似度阈值获取目标文本节点;
将所述目标标签在所述目标文本节点之间进行传播,并将具有相同所述 目标标签对应的文本进行聚类,以获得聚类结果簇。
进一步地,所述标签传播的聚类程序被处理器执行时还实现如下操作:
通过FNLP对所述样样本文本集中的文本进行分词及词性标注操作,以 获得特征词;
对所述特征词进行TF-IDF运算,以获得所述特征词的词频及逆文档频率;
根据所述词频及所述逆文档频率,通过预设权重对应关系生成所述特征 词的权重阈值;
将所述特征词的权重阈值与预设频繁词阈值进行比较,根据比较结果获 取目标特征词,以将所述目标特征词作为所述文本的频繁词。
进一步地,所述标签传播的聚类程序被处理器执行时还实现如下操作:
从所述样本文本集中提取所述文本的文本信息;
根据所述文本信息通过预设映射关系,将具有所述文本信息的文本节点 之间设置为有向边,以构建异质文本网络。
进一步地,所述标签传播的聚类程序被处理器执行时还实现如下操作:
将所述异质文本网络中对应的文本节点通过预设节点影响力关系生成节 点影响力阈值;
将所述节点影响力阈值与预设节点影响力阈值进行比较,根据比较结果 获取目标文本,以将所述目标文本的频繁词作为目标标签。
进一步地,所述标签传播的聚类程序被处理器执行时还实现如下操作:
根据所述频繁词与所述文本构建频繁词-文本矩阵,以获得所述文本对应 的文本向量,并对所述文本向量通过预设余弦相似度关系生成所述文本之间 的内在特征相似度阈值;
在所述异质文本网络中,通过预设路径相似度关系生成所述文本之间的 外在特征相似度阈值;
根据所述内在特征相似度阈值及所述外在特征相似度阈值,通过预设总 相似度关系生成所述文本的总相似度阈值;
根据所述总相似度阈值获取目标文本节点。
进一步地,所述标签传播的聚类程序被处理器执行时还实现如下操作:
根据所述总相似度阈值;
将所述总相似度阈值与预设文本总相似度阈值进行比较,根据比较结果 获取所述异质文本网络中的目标文本节点。
进一步地,所述标签传播的聚类程序被处理器执行时还实现如下操作:
若所述目标文本节点为所述异质文本网络中有向边的目标文本节点,则 将所述目标标签在所述目标文本节点之间依据所述有向边的方向进行传播;
若所述目标文本节点为所述异质文本网络中无向边或者双向边的目标文 本节点,根据所述目标文本节点对应的节点影响力阈值进行排序并获得排序 结果,将所述目标标签在所述目标文本节点之间依据所述排序结果进行传播;
将具有相同所述目标标签对应的文本进行聚类,以获得聚类结果簇。
在本实施例中,通过对样本文本集中的文本进行分词处理,以获取各文 本的频繁词;从所述样本文本集中提取所述文本的文本信息,根据所述文本 信息通过预设映射关系构建异质文本网络;将所述异质文本网络中对应的文 本节点通过预设节点影响力关系生成节点影响力阈值,根据所述节点影响力 阈值获取目标标签;在所述异质文本网络中通过预设总相似度关系生成所述 文本之间的总相似度阈值,根据所述总相似度阈值获取目标文本节点;将所 述目标标签在所述目标文本节点之间进行传播,并将具有相同所述目标标签 对应的文本进行聚类,以获得聚类结果簇。本发明技术方案能够解决标签传 播随机性和聚类精确度及可信度低的技术问题。
此外,参照图4,本发明实施例还提出一种标签传播的聚类装置,所述标 签传播的聚类装置包括:
频繁词获取模块10,用于对样本文本集中的文本进行分词处理,以获取 各文本的频繁词。
可以理解的是,本实施例中,所述文本是指书面语言的表现形式,从文 学角度说,通常是具有完整、系统含义的一个句子或多个句子的组合;一个 文本可以是一个句子、一个段落或者一个篇章,此处不再一一赘述。
在具体实现中,预先采集样本文本集,对样本文本集中的文本进行分词 及词性标注操作以获得特征词,根据所述特征词获得其词频及逆文档频率, 再根据所述预设权重对应关系以获取各文本的频繁词。
异质文本网络构建模块20,用于从所述样本文本集中提取所述文本的文 本信息,根据所述文本信息通过预设映射关系构建异质文本网络。
需要说明的是,本实施例中,所述文本信息包括文本的作者之间的关注 信息、文本点赞、转发及引用的信息等,此处不再一一赘述。
在具体实现中,从所述样本文本集中提取所述文本的文本信息,根据所 述文本信息通过预设映射关系,将具有所述文本信息的文本节点之间设置为 有向边,以构建异质文本网络。
目标标签获取模块30,用于将所述异质文本网络中对应的文本节点通过 预设节点影响力关系生成节点影响力阈值,根据所述节点影响力阈值获取目 标标签。
需要说明的是,本实施例中,根据所述节点影响力阈值,将所述节点影 响力阈值与预设节点影响力阈值进行比较,根据比较结果获取目标文本,以 将所述目标文本的频繁词作为目标标签。
目标文本节点获取模块40,用于在所述异质文本网络中通过预设总相似 度关系生成所述文本之间的总相似度阈值,根据所述总相似度阈值获取目标 文本节点。
需要说明的是,本实施例中,根据所述频繁词及所述预设余弦相似度关 系获得所述内在特征相似度阈值;同时在所述异质文本网络中通过所述预设 路径相似度关系获得所述外在特征相似度阈值,最后根据所述内在特征相似 度阈值及所述外在特征相似度阈值,通过预设总相似度关系生成所述文本的 总相似度阈值以获取目标文本节点。
传播及聚类模块50,用于将所述目标标签在所述目标文本节点之间进行 传播,并将具有相同所述目标标签对应的文本进行聚类,以获得聚类结果簇。
需要说明的是,本实施例中,引用标签传播算法,将所述目标标签在所 述目标文本节点之间进行传播,最后将具有相同所述目标标签对应的文本进 行聚类,以获得聚类结果簇直至整个过程结束。
值得说明的是,本实施例中,引入了加权有向异质文本网络,挖掘文本 的多维特征进行相似性计算,提高了聚类结果的精确度和可信度。
在本实施例中,通过对样本文本集中的文本进行分词处理,以获取各文 本的频繁词;从所述样本文本集中提取所述文本的文本信息,根据所述文本 信息通过预设映射关系构建异质文本网络;将所述异质文本网络中对应的文 本节点通过预设节点影响力关系生成节点影响力阈值,根据所述节点影响力 阈值获取目标标签;在所述异质文本网络中通过预设总相似度关系生成所述 文本之间的总相似度阈值,根据所述总相似度阈值获取目标文本节点;将所 述目标标签在所述目标文本节点之间进行传播,并将具有相同所述目标标签 对应的文本进行聚类,以获得聚类结果簇。本发明技术方案能够解决标签传 播随机性和聚类精确度及可信度低的技术问题。
本发明所述标签传播的聚类装置的其他实施例或具体实现方式可参照上 述各方法实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在 涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系 统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括 为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下, 由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物 品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。在列举了 若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项 来具体体现。词语第一、第二、以及第三等的使用不表示任何顺序,可将这 些词语解释为名称。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述 实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通 过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的 技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体 现出来,该计算机软件产品存储在一个存储介质(如只读存储器镜像(Read Only Memory image,ROM)/随机存取存储器(Random AccessMemory,RAM)、 磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是 利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间 接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
标签传播的聚类方法、终端设备、存储介质及装置专利购买费用说明
Q:办理专利转让的流程及所需资料
A:专利权人变更需要办理著录项目变更手续,有代理机构的,变更手续应当由代理机构办理。
1:专利变更应当使用专利局统一制作的“著录项目变更申报书”提出。
2:按规定缴纳著录项目变更手续费。
3:同时提交相关证明文件原件。
4:专利权转移的,变更后的专利权人委托新专利代理机构的,应当提交变更后的全体专利申请人签字或者盖章的委托书。
Q:专利著录项目变更费用如何缴交
A:(1)直接到国家知识产权局受理大厅收费窗口缴纳,(2)通过代办处缴纳,(3)通过邮局或者银行汇款,更多缴纳方式
Q:专利转让变更,多久能出结果
A:著录项目变更请求书递交后,一般1-2个月左右就会收到通知,国家知识产权局会下达《转让手续合格通知书》。
动态评分
0.0