专利转让平台_买专利_卖专利_中国高校专利技术交易-买卖发明专利上知查网

全部分类
全部分类
一种结构化海量实时数据的动态存储优化方法

一种结构化海量实时数据的动态存储优化方法

IPC分类号 : G06F17/30

申请号
CN201810270412.5
可选规格
  • 专利类型: 发明专利
  • 法律状态: 有权
  • 申请日: 2018-03-29
  • 公开号: CN108446399B
  • 公开日: 2018-08-24
  • 主分类号: G06F17/30
  • 专利权人: 重庆大学

专利摘要

本发明公开了一种结构化海量实时数据的动态存储优化方法,它包括:设定数据甄别规范和时间阈值;读取数据;筛选并标记数据;建立动态双缓存区;对动态缓冲区中的数据建立混合索引;将动态缓存区中小于时间阈值的数据存入到动态实时数据库中;若动态缓存区中的数据超过时间阈值,将超过时间阈值的数据存入到关系型历史数据库中;将实时数据库中超过时间阈值的内存索引与硬盘索引合并;索引合并后,将实时数据库中的数据存入到关系型历史数据库中。本发明取得的有益效果是:能够在接收数据时,采用双缓冲区交替接收实时数据,或对实时数据进行处理后可以不间断的接收实时数据,使内存效率达到最大,降低了接收数据的延迟性。

权利要求

1.一种结构化海量实时数据的动态存储优化方法,其特征在于,所述方法步骤如下:

S1:设定数据甄别规范和时间阈值;

S2:读取结构化实时数据;

S3:筛选并标记出与甄别规范相对应的实时数据;

S4:建立动态双缓存区,用于接收筛选并标记的实时数据;

S5:对动态缓冲区中的标记数据与非标记数据分别建立混合索引;

S6:将动态缓存区中小于时间阈值的标记数据和非标记数据分别存入到动态实时数据库的不同区域中,并使用内存池技术对内存进行管理;

S7:若动态缓存区中的标记数据或非标记数据超过时间阈值,则将该动态缓存区超过时间阈值的数据存入到关系型历史数据库中;

S8:将实时数据库中超过时间阈值的内存索引与硬盘索引合并;

S9:在索引合并完成后,将实时数据库中的实时数据存入到关系型历史数据库中;

所述步骤S4还包括有:

S41:统计当前标记数据量占总数据量的比例;

S42:在内存中分别设置有容量相同的第一缓存区和第二缓存区;

S43:根据统计比例动态划分两个缓冲区中标记数据和非标记数据所占缓冲区空间的大小;

S44:将采集到的数据筛选并标记后,根据标记写入第一缓存区中,并开始存储数据;

S45:当第一缓存区被写满后,将采集到的数据筛选并标记后根据标记写入第二缓存区中;

S46:当第二缓存区被写满后,回到第一缓存区起始处,用覆盖的方式把新采集的数据筛选并标记后写入第一缓存区;

S47:返回步骤S44。

2.如权利要求1所述的结构化海量实时数据的动态存储优化方法,其特征在于,所述步骤S5还包括有:

S51:对结构化数据采用列存储结构,将字段值按照数据字典排序存储;

S52:将某长度的数据按照时间顺序作为一个数据块进行保存;

S53:将标记数据与非标记数据分开存入至不同数据块中;

S54:在每个数据块中建立块内索引;

S55:根据数据块的时间属性建立时间索引,用于管理数据块。

3.如权利要求1所述的结构化海量实时数据的动态存储优化方法,其特征在于,所述步骤S6还包括有:

S61:将内存数据库存储区域划分为非标记数据区和标记数据区;

S62:根据统计得到的当前标记数据量占总数据量的比例,动态设定标记区和非标记区;

S63:设置标记数据区和非标记数据区的访问优先级,当检索数据时优先检索标记数据区;

S64:根据数据标记将数据存入指定区域。

4.如权利要求1所述的结构化海量实时数据的动态存储优化方法,其特征在于,所述步骤S7还包括有:

S71:将动态缓冲区数据进行分类,分为时间标签,质量码和数值三类;

S72:对时间标签,质量码和数值三种数据类型分类压缩;

S73:将压缩后的数据存入关系型历史数据库。

5.如权利要求1所述的结构化海量实时数据的动态存储优化方法,其特征在于,所述步骤S8还包括有:

S81:建立两个内存索引,索引A和索引B,系统最开始启动时,索引A处于工作状态,索引B处于休眠状态;

S82:当实时数据库中数据超过时间阈值需要存入关系型历史数据库时,此时索引A不再向其中添加数据;系统中索引B开始工作,为新存入实时数据库的数据建立索引;

S83:当索引A中的数据完全合并到历史数据库中时,索引A进入休眠状态;

S84:索引A和索引B交替工作。

6.如权利要求1所述的结构化海量实时数据的动态存储优化方法,其特征在于,所述步骤S9还包括有:

S91:实时数据库中实时索引与历史数据库中的索引进行合并;

S92:对待存储数据进行分类,分为时间标签,质量码和数值三类;

S93:根据数据类型不同进行数据分类压缩;

S94:将压缩后的数据存入历史数据库。

说明书

技术领域

本发明涉及计算机信息技术领域,特别是一种结构化海量实时数据的动态存储优化方法。

背景技术

随着科技的发展,云计算领域提出的大数据中一类重要的应用就是针对海量结构化数据的存储与检索。

在对数据的实时性要求高的场合,不仅需要实时的接收和发送海量数据,还要把数据实时存储到内存数据库,对超过时间阈值的数据还要存到磁盘历史数据库,如此复杂的工作单缓冲区很难胜任,保持高速数据存储的实时性是一个比较棘手的问题。

随后在内存数据库的概念提出以后,出现了各种不同的基于内存的实时数据库以及缓存实时数据的产品,基于内存的实时数据库需要将常用的或马上使用的数据缓存到内存中,在访问时可以直接从内存中取出数据,可以减少对磁盘等外部存储器的访问,从而提高数据的访问效率,但是数据存储位置和空间大小分配不能进行动态分配,降低了内存的空间利用率;同时,在对数据建立索引时一般只使用一个内存索引和一个数据库索引,在内存索引与历史数据库索引合并时,不能再添加新的索引,使得数据的实时存储出现了一定的延迟。

发明内容

有鉴于现有技术的上述缺陷,本发明的目的就是提供一种结构化海量实时数据的动态存储优化方法,能够在接收数据时,采用双缓冲区交替接收实时数据,或对实时数据进行处理后可以不间断的接收实时数据,使内存效率达到最大,降低了接收数据的延迟性。

本发明的目的是通过这样的技术方案实现的,一种结构化海量实时数据的动态存储优化方法,它包括有:

S1:设定数据甄别规范和时间阈值;

S2:读取结构化实时数据;

S3:筛选并标记出与甄别规范相对应的实时数据;

S4:建立动态双缓存区,用于接收筛选并标记的实时数据;

S5:对动态缓冲区中的标记数据与非标记数据分别建立混合索引;

S6:将动态缓存区中小于时间阈值的标记数据和非标记数据分别存入到动态实时数据库的不同区域中,并使用内存池技术对内存进行管理;

S7:若动态缓存区中的标记数据或非标记数据超过时间阈值,则将该动态缓存区超过时间阈值的数据存入到关系型历史数据库中;

S8:将实时数据库中超过时间阈值的内存索引与硬盘索引合并;

S9:在索引合并完成后,将实时数据库中的实时数据存入到关系型历史数据库中。

进一步,所述步骤S4还包括有:

S41:统计当前标记数据量占总数据量的比例;

S42:在内存中分别设置有容量相同的第一缓存区和第二缓存区;

S43:根据统计比例动态划分两个缓冲区中标记数据和非标记数据所占缓冲区空间的大小;

S44:将采集到的数据筛选并标记后,根据标记写入第一缓存区中,并开始存储数据;

S45:当第一缓存区被写满后,将采集到的数据筛选并标记后根据标记写入第二缓存区中;

S46:当第二缓存区被写满后,回到第一缓存区起始处,用覆盖的方式把新采集的数据筛选并标记后写入第一缓存区;

S47:返回步骤S44。

进一步,所述步骤S5还包括有:

S51:对结构化数据采用列存储结构,将字段值按照数据字典排序存储;

S52:将某长度的数据按照时间顺序作为一个数据块进行保存;

S53:将标记数据与非标记数据分开存入至不同数据块中;

S54:在每个数据块中建立块内索引;

S55:根据数据块的时间属性建立时间索引,用于管理数据块。

进一步,所述步骤S6还包括有:

S61:将内存数据库存储区域划分为非标记数据区和标记数据区;

S62:根据统计得到的当前标记数据量占总数据量的比例,动态设定标记区和非标记区;

S63:设置标记数据区和非标记数据区的访问优先级,当检索数据时优先检索标记数据区;

S64:根据数据标记将数据存入指定区域。

进一步,所述步骤S7还包括有:

S71:将动态缓冲区数据进行分类,主要分为时间标签,质量码和数值三类;

S72:对时间标签,质量码和数值三种数据类型分类压缩;

S73:将压缩后的数据存入关系型历史数据库。

进一步,所述步骤S8还包括有:

S81:建立两个内存索引,索引A和索引B,系统最开始启动时,索引A处于工作状态,索引B处于休眠状态;

S82:当实时数据库中数据超过时间阈值需要存入关系型历史数据库时,此时索引A不再向其中添加数据;系统中索引B开始工作,为新存入实时数据库的数据建立索引;

S83:当索引A中的数据完全合并到历史数据库中时,索引A进入休眠状态;

S84:索引A和索引B交替工作。

进一步,所述步骤S9还包括有:

S91:实时数据库中实时索引与历史数据库中的索引进行合并;

S92:对待存储数据进行分类,主要分为时间标签,质量码和数值三类;;

S93:根据数据类型不同进行数据分类压缩;

S94:将压缩后的数据存入历史数据库。

由于采用了上述技术方案,本发明具有如下的优点:具有快速、实时、高效的特点,在大量实时数据采集存储的过程中,双缓冲区更容易满足数据的高速率采集存储要求,又可以减少内存空间的占用,同时对缓冲区空间进行动态划分,提高对缓冲区中数据处理速度;使用内存池技术管理内存空间可以极大的提高数据传输的实时性,同时能有效减少内存碎片数量,提高空间利用率;对实时奇异数据和正常数据分区存储通过优先检索奇异值存储区的方式可以有效提高数据检索效率,对数据存储区空间根据数据比例进行动态分配有效提高数据空间的利用率;同时根据数据关联度将一段时间内产生的数据存入一个数据块提高数据检索效率;考虑到实时数据具有时效性,采用基于内存的实时数据库存储实时数据减少了对磁盘的访问,提高了数据的存储和读取速度,更加满足实时性要求。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书和权利要求书来实现和获得。

附图说明

本发明的附图说明如下:

图1为结构化海量实时数据的动态存储优化方法的流程示意图。

图2为动态双缓冲区的工作流程示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

实施例:如图1和图2所示;一种结构化海量实时数据的动态存储优化方法,它包括有:

S1:设定数据甄别规范和时间阈值;

S2:读取结构化实时数据;

S3:筛选并标记出与甄别规范相对应的实时数据;

S4:建立动态双缓存区,用于接收筛选并标记的实时数据;

所述步骤S4还包括有:

S41:统计当前标记数据量占总数据量的比例;

S42:在内存中分别设置有容量相同的第一缓存区和第二缓存区;

S43:根据统计比例动态划分两个缓冲区中标记数据和非标记数据所占缓冲区空间的大小;

S44:将采集到的数据筛选并标记后,根据标记写入第一缓存区中,并开始存储数据;

S45:当第一缓存区被写满后,将采集到的数据筛选并标记后根据标记写入第二缓存区中;

S46:当第二缓存区被写满后,回到第一缓存区起始处,用覆盖的方式把新采集的数据筛选并标记后写入第一缓存区;

S47:返回步骤S44。

S5:对动态缓冲区中的标记数据与非标记数据分别建立混合索引;内存的混合索引包括有:对数据分块处理再建立块内索引和数据块的索引。

所述步骤S5还包括有:

S51:对结构化数据采用列存储结构,将字段值按照数据字典排序存储;

S52:将某长度的数据按照时间顺序作为一个数据块进行保存;

S53:将标记数据与非标记数据分开存入至不同数据块中;

S54:在每个数据块中建立块内索引;

S55:根据数据块的时间属性建立时间索引,用于管理数据块。

S6:将动态缓存区中小于时间阈值的标记数据和非标记数据分别存入到动态实时数据库的不同区域中,并使用内存池技术对内存进行管理;内存池管理内存可减少内存碎片的数量。

所述步骤S6还包括有:

S61:将内存数据库存储区域划分为非标记数据区和标记数据区;

S62:根据统计得到的当前标记数据量占总数据量的比例,动态设定标记区和非标记区;

S63:设置标记数据区和非标记数据区的访问优先级,当检索数据时优先检索标记数据区;

S64:根据数据标记将数据存入指定区域。

S7:若动态缓存区中的标记数据或非标记数据超过时间阈值,则将该动态缓存区超过时间阈值的数据存入到关系型历史数据库中;

所述步骤S7还包括有:

S71:将动态缓冲区数据进行分类,主要分为时间标签,质量码和数值三类;

S72:对时间标签,质量码和数值三种数据类型分类压缩;

S73:将压缩后的数据存入关系型历史数据库。

S8:将实时数据库中超过时间阈值的内存索引与硬盘索引合并;

所述步骤S8还包括有:

S81:建立两个内存索引,索引A和索引B,系统最开始启动时,索引A处于工作状态,索引B处于休眠状态;

S82:当实时数据库中数据超过时间阈值需要存入关系型历史数据库时,此时索引A不再向其中添加数据;系统中索引B开始工作,为新存入实时数据库的数据建立索引;

S83:当索引A中的数据完全合并到历史数据库中时,索引A进入休眠状态;

S84:索引A和索引B交替工作。

S9:在索引合并完成后,将实时数据库中的实时数据存入到关系型历史数据库中。

所述步骤S9还包括有:

S91:实时数据库中实时索引与历史数据库中的索引进行合并;

S92:对待存储数据进行分类,主要分为时间标签,质量码和数值三类;;

S93:根据数据类型不同进行数据分类压缩;

S94:将压缩后的数据存入历史数据库。

本发明在接收数据时,采用双缓冲区交替接收实时数据或对实时数据进行处理可以不间断的接收实时数据,使内存效率达到最大,降低了接收数据的延迟性;对实时奇异数据和正常数据动态分区存储通过优先检索奇异值存储区的方式可以有效提高数据检索效率;同时根据数据关联度将一段时间内产生的数据存入一个数据块提高数据检索效率;并且,本发明会同时建立两个内存索引,两个索引交替工作,降低了内存实时数据库与磁盘历史数据库索引合并时无法再对历史数据添加索引导致的延迟问题。

应当理解的是,本说明书未详细阐述的部分均属于现有技术。

最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

一种结构化海量实时数据的动态存储优化方法专利购买费用说明

专利买卖交易资料

Q:办理专利转让的流程及所需资料

A:专利权人变更需要办理著录项目变更手续,有代理机构的,变更手续应当由代理机构办理。

1:专利变更应当使用专利局统一制作的“著录项目变更申报书”提出。

2:按规定缴纳著录项目变更手续费。

3:同时提交相关证明文件原件。

4:专利权转移的,变更后的专利权人委托新专利代理机构的,应当提交变更后的全体专利申请人签字或者盖章的委托书。

Q:专利著录项目变更费用如何缴交

A:(1)直接到国家知识产权局受理大厅收费窗口缴纳,(2)通过代办处缴纳,(3)通过邮局或者银行汇款,更多缴纳方式

Q:专利转让变更,多久能出结果

A:著录项目变更请求书递交后,一般1-2个月左右就会收到通知,国家知识产权局会下达《转让手续合格通知书》。

动态评分

0.0

没有评分数据
没有评价数据
×

打开微信,点击底部的“发现”

使用“扫一扫”即可将网页分享至朋友圈

×
复制
用户中心
我的足迹
我的收藏

您的购物车还是空的,您可以

  • 微信公众号

    微信公众号
在线留言
返回顶部