标签传播的聚类方法、终端设备、存储介质及装置

IPC分类号 : G06F16/33I,G06F16/35I,G06F17/27I

申请号

CN201910504157.0

可选规格: 数量

库存1件

确认取消

￥30000; 库存1件

首页

立即咨询

看了又看

纳米氢氧化钙/镁铝碳酸根型纳米水滑石纳米复合材料及制备方法

发明专利
建筑钢结构加工用抛光装置

发明专利
简易手动式管件对接相贯线截断等离子切割机

发明专利
一种沥青软化搅拌装置

实用新型专利
基于同时封装靶物质并合成具有氧化还原活性MOFs的制法

发明专利
一种自动感光调节的室内节能灯

实用新型专利
一种步进电机闭环控制结构

实用新型专利
自定义交互区域的区域定义、展示与识别方法

发明专利
一种用于高速低功耗相变存储器的Ge/Sb类超晶格相变薄膜材料

发明专利
家庭式小型洗碗机

实用新型

专利摘要

本发明公开了一种标签传播的聚类方法、终端设备、存储介质及装置，该方法包括：获取各文本的频繁词；从样本文本集中提取所述文本的文本信息，根据所述文本信息通过预设映射关系构建异质文本网络；将所述异质文本网络中对应的文本节点通过预设节点影响力关系生成节点影响力阈值，根据所述节点影响力阈值获取目标标签；在所述异质文本网络中通过预设总相似度关系生成所述文本之间的总相似度阈值，根据所述总相似度阈值获取目标文本节点；将所述目标标签在所述目标文本节点之间进行传播，并将具有相同所述目标标签对应的文本进行聚类，以获得聚类结果簇。本发明技术方案能够解决标签传播随机性和聚类精确度及可信度低的技术问题。

权利要求

1.一种标签传播的聚类方法，其特征在于，所述标签传播的聚类方法包括以下步骤：

对样本文本集中的文本进行分词处理，以获取各文本的频繁词；

从所述样本文本集中提取所述文本的文本信息，根据所述文本信息通过预设映射关系构建异质文本网络；

将所述异质文本网络中对应的文本节点通过预设节点影响力关系生成节点影响力阈值，根据所述节点影响力阈值获取目标标签；

在所述异质文本网络中通过预设总相似度关系生成所述文本之间的总相似度阈值，根据所述总相似度阈值获取目标文本节点；

将所述目标标签在所述目标文本节点之间进行传播，并将具有相同所述目标标签对应的文本进行聚类，以获得聚类结果簇；

所述将所述目标标签在所述目标文本节点之间进行传播，并将具有相同所述目标标签对应的文本进行聚类，以获得聚类结果簇，具体包括：

若所述目标文本节点为所述异质文本网络中有向边的目标文本节点，则将所述目标标签在所述目标文本节点之间依据所述有向边的方向进行传播；

若所述目标文本节点为所述异质文本网络中无向边或者双向边的目标文本节点，根据所述目标文本节点对应的节点影响力阈值进行排序并获得排序结果，将所述目标标签在所述目标文本节点之间依据所述排序结果进行传播；

将具有相同所述目标标签对应的文本进行聚类，以获得聚类结果簇。

2.如权利要求1所述的标签传播的聚类方法，其特征在于，所述对样本文本集中的文本进行分词处理，以获取各文本的频繁词，具体包括：

通过FNLP对所述样本文本集中的文本进行分词及词性标注操作，以获得特征词；

对所述特征词进行TF-IDF运算，以获得所述特征词的词频及逆文档频率；

根据所述词频及所述逆文档频率，通过预设权重对应关系生成所述特征词的权重阈值；

将所述特征词的权重阈值与预设频繁词阈值进行比较，根据比较结果获取目标特征词，以将所述目标特征词作为所述文本的频繁词。

3.如权利要求1所述的标签传播的聚类方法，其特征在于，所述从所述样本文本集中提取所述文本的文本信息，根据所述文本信息通过预设映射关系构建异质文本网络，具体包括：

从所述样本文本集中提取所述文本的文本信息；

根据所述文本信息通过预设映射关系，将具有所述文本信息的文本节点之间设置为有向边，以构建异质文本网络。

4.如权利要求1至3任意一项所述的标签传播的聚类方法，其特征在于，所述将所述异质文本网络中对应的文本节点通过预设节点影响力关系生成节点影响力阈值，根据所述节点影响力阈值获取目标标签，具体包括：

将所述异质文本网络中对应的文本节点通过预设节点影响力关系生成节点影响力阈值；

将所述节点影响力阈值与预设节点影响力阈值进行比较，根据比较结果获取目标文本，以将所述目标文本的频繁词作为目标标签。

5.如权利要求1至3任意一项所述的标签传播的聚类方法，其特征在于，所述在所述异质文本网络中通过预设总相似度关系生成所述文本之间的总相似度阈值，根据所述总相似度阈值获取目标文本节点，具体包括：

根据所述频繁词与所述文本构建频繁词-文本矩阵，以获得所述文本对应的文本向量，并对所述文本向量通过预设余弦相似度关系生成所述文本之间的内在特征相似度阈值；

在所述异质文本网络中，通过预设路径相似度关系生成所述文本之间的外在特征相似度阈值；

根据所述内在特征相似度阈值及所述外在特征相似度阈值，通过预设总相似度关系生成所述文本的总相似度阈值；

根据所述总相似度阈值获取目标文本节点。

6.如权利要求5所述的标签传播的聚类方法，其特征在于，所述根据所述总相似度阈值获取目标文本节点，具体包括：

根据所述总相似度阈值；

将所述总相似度阈值与预设文本总相似度阈值进行比较，根据比较结果获取所述异质文本网络中的目标文本节点。

7.一种终端设备，其特征在于，所述终端设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的标签传播的聚类程序，所述标签传播的聚类程序被所述处理器执行时实现如权利要求1至6中任一项所述的标签传播的聚类方法的步骤。

8.一种存储介质，其特征在于，所述存储介质上存储有标签传播的聚类程序，所述标签传播的聚类程序被处理器执行时实现如权利要求1至6中任一项所述的标签传播的聚类方法的步骤。

9.一种标签传播的聚类装置，其特征在于，所述标签传播的聚类装置包括：

频繁词获取模块，用于对样本文本集中的文本进行分词处理，以获取各文本的频繁词；

异质文本网络构建模块，用于从所述样本文本集中提取所述文本的文本信息，根据所述文本信息通过预设映射关系构建异质文本网络；

目标标签获取模块，用于将所述异质文本网络中对应的文本节点通过预设节点影响力关系生成节点影响力阈值，根据所述节点影响力阈值获取目标标签；

目标文本节点获取模块，用于在所述异质文本网络中通过预设总相似度关系生成所述文本之间的总相似度阈值，根据所述总相似度阈值获取目标文本节点；

传播及聚类模块，用于将所述目标标签在所述目标文本节点之间进行传播，并将具有相同所述目标标签对应的文本进行聚类，以获得聚类结果簇；

所述传播及聚类模块，还用于在所述目标文本节点为所述异质文本网络中有向边的目标文本节点时，将所述目标标签在所述目标文本节点之间依据所述有向边的方向进行传播；

所述传播及聚类模块，还用于在所述目标文本节点为所述异质文本网络中无向边或者双向边的目标文本节点时，根据所述目标文本节点对应的节点影响力阈值进行排序并获得排序结果，将所述目标标签在所述目标文本节点之间依据所述排序结果进行传播；

所述传播及聚类模块，还用于将具有相同所述目标标签对应的文本进行聚类，以获得聚类结果簇。

说明书

技术领域

本发明涉及标签传播及聚类技术领域，尤其涉及一种标签传播的聚类方法、终端设备、存储介质及装置。

背景技术

目前在农业生产、信息检索、金融及生物信息处理等方面，都需要针对大量的数据信息进行处理后再进行使用，一般会使用标签进行传播处理后再进行聚类；例如，在研究农作物虫害的分析时，需要给受害农作物进行受害现象进行打标，然后进行判断是否属于哪一类的害虫，使用标签传播算法能够很快的对这种现象进行聚类得到结果，最后能够针对此害虫进行补救。但是这种标签传播算法不仅存在随机性，而且对打标处理后的数据进行聚类后其精确度及可信度都不高。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种标签传播的聚类方法、终端设备、存储介质及装置，旨在解决标签传播随机性和聚类精确度及可信度低的技术问题。

为实现上述目的，本发明提供一种标签传播的聚类方法，所述标签传播的聚类方法包括以下步骤：

对样本文本集中的文本进行分词处理，以获取各文本的频繁词；

从所述样本文本集中提取所述文本的文本信息，根据所述文本信息通过预设映射关系构建异质文本网络；

将所述异质文本网络中对应的文本节点通过预设节点影响力关系生成节点影响力阈值，根据所述节点影响力阈值获取目标标签；

在所述异质文本网络中通过预设总相似度关系生成所述文本之间的总相似度阈值，根据所述总相似度阈值获取目标文本节点；

将所述目标标签在所述目标文本节点之间进行传播，并将具有相同所述目标标签对应的文本进行聚类，以获得聚类结果簇。

优选地，所述对样本文本集中的文本进行分词处理，以获取各文本的频繁词，具体包括：

通过FNLP对所述样样本文本集中的文本进行分词及词性标注操作，以获得特征词；

对所述特征词进行TF-IDF运算，以获得所述特征词的词频及逆文档频率；

根据所述词频及所述逆文档频率，通过预设权重对应关系生成所述特征词的权重阈值；

将所述特征词的权重阈值与预设频繁词阈值进行比较，根据比较结果获取目标特征词，以将所述目标特征词作为所述文本的频繁词。

优选地，所述从所述样本文本集中提取所述文本的文本信息，根据所述文本信息通过预设映射关系构建异质文本网络，具体包括：

从所述样本文本集中提取所述文本的文本信息；

根据所述文本信息通过预设映射关系，将具有所述文本信息的文本节点之间设置为有向边，以构建异质文本网络。

优选地，所述将所述异质文本网络中对应的文本节点通过预设节点影响力关系生成节点影响力阈值，根据所述节点影响力阈值获取目标标签，具体包括：

将所述异质文本网络中对应的文本节点通过预设节点影响力关系生成节点影响力阈值；

将所述节点影响力阈值与预设节点影响力阈值进行比较，根据比较结果获取目标文本，以将所述目标文本的频繁词作为目标标签。

优选地，所述在所述异质文本网络中通过预设总相似度关系生成所述文本之间的总相似度阈值，根据所述总相似度阈值获取目标文本节点，具体包括：

在所述异质文本网络中，通过预设路径相似度关系生成所述文本之间的外在特征相似度阈值；

根据所述内在特征相似度阈值及所述外在特征相似度阈值，通过预设总相似度关系生成所述文本的总相似度阈值；

根据所述总相似度阈值获取目标文本节点。

优选地，所述根据所述总相似度阈值获取目标文本节点，具体包括：

根据所述总相似度阈值；

将所述总相似度阈值与预设文本总相似度阈值进行比较，根据比较结果获取所述异质文本网络中的目标文本节点。

优选地，所述将所述目标标签在所述目标文本节点之间进行传播，并将具有相同所述目标标签对应的文本进行聚类，以获得聚类结果簇，具体包括：

若所述目标文本节点为所述异质文本网络中有向边的目标文本节点，则将所述目标标签在所述目标文本节点之间依据所述有向边的方向进行传播；

将具有相同所述目标标签对应的文本进行聚类，以获得聚类结果簇。

此外，为实现上述目的，本发明还提出一种终端设备，所述终端设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的标签传播的聚类程序，所述标签传播的聚类程序被所述处理器执行时实现如上文所述的标签传播的聚类方法的步骤。

此外，为实现上述目的，本发明还提出一种存储介质，所述存储介质上存储有标签传播的聚类程序，所述标签传播的聚类程序被处理器执行时实现如上文所述的标签传播的聚类方法的步骤。

此外，为实现上述目的，本发明还提出一种标签传播的聚类装置，所述标签传播的聚类装置包括：

频繁词获取模块，用于对样本文本集中的文本进行分词处理，以获取各文本的频繁词；

异质文本网络构建模块，用于从所述样本文本集中提取所述文本的文本信息，根据所述文本信息通过预设映射关系构建异质文本网络；

传播及聚类模块，用于将所述目标标签在所述目标文本节点之间进行传播，并将具有相同所述目标标签对应的文本进行聚类，以获得聚类结果簇。

本发明中，通过对样本文本集中的文本进行分词处理，以获取各文本的频繁词；从所述样本文本集中提取所述文本的文本信息，根据所述文本信息通过预设映射关系构建异质文本网络；将所述异质文本网络中对应的文本节点通过预设节点影响力关系生成节点影响力阈值，根据所述节点影响力阈值获取目标标签；在所述异质文本网络中通过预设总相似度关系生成所述文本之间的总相似度阈值，根据所述总相似度阈值获取目标文本节点；将所述目标标签在所述目标文本节点之间进行传播，并将具有相同所述目标标签对应的文本进行聚类，以获得聚类结果簇。本发明技术方案能够解决标签传播随机性和聚类精确度及可信度低的技术问题。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的终端设备结构示意图；

图2为本发明标签传播的聚类方法第一实施例的流程示意图；

图3为本发明标签传播的聚类方法第二实施例的流程示意图；

图4为本发明标签传播的聚类装置第一实施例的结构框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的终端设备结构示意图。

如图1所示，该终端设备可以包括：处理器1001，例如中央处理器(CentralProcessing Unit，CPU)，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)，可选用户接口1003还可以包括标准的有线接口、无线接口，对于用户接口1003的有线接口在本发明中可为USB 接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity，WI-FI)接口)。存储器1005可以是高速的随机存取存储器(Random Access Memory，RAM)存储器，也可以是稳定的存储器 (Non-volatileMemory，NVM)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对终端设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及标签传播的聚类程序。

在图1所示的终端设备中，网络接口1004主要用于连接后台服务器，与所述后台服务器进行数据通信；用户接口1003主要用于连接外设，与所述外设进行数据通信；所述终端设备通过处理器1001调用存储器1005中存储的标签传播的聚类程序，并执行本发明实施例提供的标签传播的聚类方法。

对样本文本集中的文本进行分词处理，以获取各文本的频繁词；

从所述样本文本集中提取所述文本的文本信息，根据所述文本信息通过预设映射关系构建异质文本网络；

将所述异质文本网络中对应的文本节点通过预设节点影响力关系生成节点影响力阈值，根据所述节点影响力阈值获取目标标签；

在所述异质文本网络中通过预设总相似度关系生成所述文本之间的总相似度阈值，根据所述总相似度阈值获取目标文本节点；

将所述目标标签在所述目标文本节点之间进行传播，并将具有相同所述目标标签对应的文本进行聚类，以获得聚类结果簇。