专利摘要
专利摘要
本发明涉及人工智能领域,尤其涉及一种人机对抗知识数据混合驱动型决策方法、装置、电子设备及存储介质。所述方法包括:在每个决策时间节点,首先在决策规则库中查找当前人机对抗态势下各行动单元对应的行动任务,在所述决策规则库中不存在当前人机对抗态势下各行动单元的行动任务时,再基于蒙特卡洛树搜索来实现在线决策。本发明适用于在人机对抗环境中给出对抗决策。
权利要求
1.一种人机对抗知识数据混合驱动型决策方法,其特征在于,所述方法包括:
在每个决策时间节点,获取当前人机对抗态势;
在决策规则库中查找当前人机对抗态势下各行动单元分别对应的行动任务,其中,所述决策规则库中保存有各种人机对抗态势下行动单元与行动任务之间的对应关系;
若在所述决策规则库中没有查找到当前人机对抗态势下各行动单元分别对应的行动任务,则基于蒙特卡洛树搜索确定当前人机对抗态势下各行动单元分别对应的行动任务;
将所述当前人机对抗态势下各行动单元分别对应的行动任务发送给相应的行动单元,以使各所述行动单元执行所述行动任务。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若在所述决策规则库中查找到当前人机对抗态势下各行动单元分别对应的行动任务,则将查找到的各所述行动任务发送给相应的行动单元,以使各所述行动单元执行所述行动任务。
3.根据权利要求1所述的方法,其特征在于,所述基于蒙特卡洛树搜索确定当前人机对抗态势下各行动单元分别对应的行动任务包括:
按照匹配策略为每个行动单元分别匹配一个行动任务,生成第一战术;
通过扩展策略对所述第一战术进行扩展,生成至少一个第二战术,其中,所述第二战术中至少一个行动单元的行动任务与所述第一战术中的该行动单元的行动任务不同;
将所述第一战术作为蒙特卡洛树的根节点、第二战术作为所述蒙特卡洛树的第一级子节点,构建蒙特卡洛树;
继续根据所述扩展策略对所述蒙特卡洛树进行扩展,直至所述蒙特卡洛树达到设计深度;
从所述蒙特卡洛树中搜索当前人机对抗态势下的最优战术;
将所述最优战术中各所述行动单元分别对应的行动任务作为当前人机对抗态势下各行动单元分别对应的行动任务。
4.根据权利要求3所述的方法,其特征在于,所述按照匹配策略为每个行动单元分别匹配一个行动任务,生成第一战术包括:
为每个行动单元随机匹配一个行动任务,生成第一战术。
5.根据权利要求3所述的方法,其特征在于,所述行动任务包括以下至少一个任务要素:任务客体、任务目标点、任务关键点、任务结束时间节点、任务动作;所述通过扩展策略对所述第一战术进行扩展,生成至少一个第二战术包括:
对所述第一战术中至少一个行动单元的行动任务的任务要素进行调整,生成至少一个第二战术。
6.根据权利要求5所述的方法,其特征在于,所述继续根据所述扩展策略对所述蒙特卡洛树进行扩展,直至所述蒙特卡洛树达到设计深度包括:
根据上置信界算法公式,在各所述第一级子节点中选取扩展子节点;
根据所述扩展策略对所述扩展子节点所对应的第二战术进行扩展,生成至少一个第三战术;
将各所述第三战术作为所述蒙特卡洛树的各第二级子节点,其中,各所述第二级子节点为所述扩展子节点的子节点;
继续根据所述上置信界算法公式,在各所述第二级子节点中选取扩展子节点,并根据所述扩展策略对所述扩展子节点所对应的第三战术进行扩展,直至所述蒙特卡洛树达到设计深度。
7.根据权利要求6所述的方法,其特征在于,所述从所述蒙特卡洛树中搜索当前人机对抗态势下的最优战术包括:
在所述蒙特卡洛树的最后一级子节点中选取一个子节点作为模拟子节点;
根据模拟策略,在所述当前人机对抗态势下对所述模拟子节点所对应的战术进行模拟,得到模拟结果;
记录所述模拟子节点的模拟结果并对所述模拟子节点对应的访问次数加1;
将所述模拟子节点本次的模拟结果以及所述模拟子节点对应的访问次数回溯至所述模拟子节点的各级父节点,以使所述模拟子节点的各级父节点记录所述模拟子节点本次的模拟结果以及所述模拟子节点对应的访问次数;
从所述蒙特卡洛树中搜索访问次数最多的叶节点,将所述叶节点所对应的战术作为当前人机对抗态势下的最优战术。
8.一种人机对抗知识数据混合驱动型决策装置,其特征在于,所述装置包括:
获取单元,用于在每个决策时间节点,获取当前人机对抗态势;
查找单元,用于在决策规则库中查找当前人机对抗态势下各行动单元分别对应的行动任务,其中,所述决策规则库中保存有各种人机对抗态势下行动单元与行动任务之间的对应关系;
确定单元,用于若在所述决策规则库中没有查找到当前人机对抗态势下各行动单元分别对应的行动任务,则基于蒙特卡洛树搜索确定当前人机对抗态势下各行动单元分别对应的行动任务;
第一发送单元,用于将当前人机对抗态势下各行动单元分别对应的行动任务发送给相应的行动单元,以使各所述行动单元执行所述行动任务。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
第二发送单元,用于若在所述决策规则库中查找到当前人机对抗态势下各行动单元分别对应的行动任务,则将查找到的各所述行动任务发送给相应的行动单元,以使各所述行动单元执行所述行动任务。
10.根据权利要求8所述的装置,其特征在于,所述确定单元包括:
匹配子单元,按照匹配策略为每个行动单元分别匹配一个行动任务,生成第一战术;
扩展子单元,用于通过扩展策略对所述第一战术进行扩展,生成至少一个第二战术,其中,所述第二战术中至少一个行动单元的行动任务与所述第一战术中的该行动单元的行动任务不同;
构建子单元,用于将所述第一战术作为蒙特卡洛树的根节点、第二战术作为所述蒙特卡洛树的第一级子节点,构建蒙特卡洛树;继续根据所述扩展策略对所述蒙特卡洛树进行扩展,直至所述蒙特卡洛树达到设计深度;
搜索子单元,用于从所述蒙特卡洛树中搜索当前人机对抗态势下的最优战术;
确定子单元,用于将所述最优战术中各所述行动单元分别对应的行动任务作为当前人机对抗态势下各行动单元分别对应的行动任务。
11.根据权利要求10所述的装置,其特征在于,所述匹配子单元具体用于:
为每个行动单元随机匹配一个行动任务,生成第一战术。
12.根据权利要求10所述的装置,其特征在于,所述行动任务包括以下至少一个任务要素:任务客体、任务目标点、任务关键点、任务结束时间节点、任务动作;所述扩展子单元具体用于:
对所述第一战术中至少一个行动单元的行动任务的任务要素进行调整,生成至少一个第二战术。
13.根据权利要求12所述的装置,其特征在于,所述构建子单元具体用于:
根据上置信界算法公式,在各所述第一级子节点中选取扩展子节点;
根据所述扩展策略对所述扩展子节点所对应的第二战术进行扩展,生成至少一个第三战术;
将各所述第三战术作为所述蒙特卡洛树的各第二级子节点,其中,各所述第二级子节点为所述扩展子节点的子节点;
继续根据所述上置信界算法公式,在各所述第二级子节点中选取扩展子节点,并根据所述扩展策略对所述扩展子节点所对应的第三战术进行扩展,直至所述蒙特卡洛树达到设计深度。
14.根据权利要求13所述的装置,其特征在于,所述搜索子单元具体用于:
在所述蒙特卡洛树的最后一级子节点中选取一个子节点作为模拟子节点;
根据模拟策略,在所述当前人机对抗态势下对所述模拟子节点所对应的战术进行模拟,得到模拟结果;
记录所述模拟子节点的模拟结果并对所述模拟子节点对应的访问次数加1;
将所述模拟子节点本次的模拟结果以及所述模拟子节点对应的访问次数回溯至所述模拟子节点的各级父节点,以使所述模拟子节点的各级父节点记录所述模拟子节点本次的模拟结果以及所述模拟子节点对应的访问次数;
从所述蒙特卡洛树中搜索访问次数最多的叶节点,将所述叶节点所对应的战术作为当前人机对抗态势下的最优战术。
15.一种电子设备,其特征在于,包括:处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述存储器中所存储的程序,实现权利要求1至7任一项所述的人机对抗知识数据混合驱动型决策方法。
16.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述的人机对抗知识数据混合驱动型决策方法。
人机对抗知识数据混合驱动型决策方法、装置及电子设备专利购买费用说明
Q:办理专利转让的流程及所需资料
A:专利权人变更需要办理著录项目变更手续,有代理机构的,变更手续应当由代理机构办理。
1:专利变更应当使用专利局统一制作的“著录项目变更申报书”提出。
2:按规定缴纳著录项目变更手续费。
3:同时提交相关证明文件原件。
4:专利权转移的,变更后的专利权人委托新专利代理机构的,应当提交变更后的全体专利申请人签字或者盖章的委托书。
Q:专利著录项目变更费用如何缴交
A:(1)直接到国家知识产权局受理大厅收费窗口缴纳,(2)通过代办处缴纳,(3)通过邮局或者银行汇款,更多缴纳方式
Q:专利转让变更,多久能出结果
A:著录项目变更请求书递交后,一般1-2个月左右就会收到通知,国家知识产权局会下达《转让手续合格通知书》。
动态评分
0.0