一种基于自然语言和机器视觉实现机器人自主导航的方法pdf

本发明公开了一种基于自然语言和机器视觉实现机器人自主导航的方法,包括:1)机器人从初始位置开始,在每一轮对话即每一时刻都获取语言信息和视觉信息;2)通过注意力机制对语言信息进行特征提取获得语义特征;通过Resnet152对视觉信息进行特征提取,获得低阶视觉特征和图像分类特征;通过faster‑RCNN和U‑net对视觉信息进行特征提取,获得目标检测特征和语义分割特征;3)通过注意力机制将当前时刻及前一时刻的低阶视觉特征、图像分类特征、目标检测特征、语义分割特征和语义特征进行融合,得到融合特征;4
(19)国家知识产权局 (12)发明专利 (10)授权公告号 CN 113420606 B (45)授权公告日 2022.06.14 (21)申请号 7.8 G06K 9/62 (2022.01) G06N 3/04 (2006.01) (22)申请日 2021.05.31 G06V 10/764 (2022.01) (65)同一申请的已公布的文献号 G06V 10/80 (2022.01) 申请公布号 CN 113420606 A (56)对比文件 (43)申请公布日 2021.09.21 CN 110647612 A,2020.01.03 (73)专利权人 华南理工大学 CN 110609891 A,2019.12.24 地址 510640 广东省广州市天河区五山路 CN 109344288 A,2019.02.15 381号 审查员 安健苗 (72)发明人 董敏聂宏蓄毕盛 (74)专利代理机构 广州市华学知识产权代理有 限公司 44245 专利代理师 冯炳辉 (51)Int.Cl. G06V 20/56 (2022.01) G06V 10/26 (2022.01) 权利要求书4页 说明书8页 附图3页 (54)发明名称 一种基于自然语言和机器视觉实现机器人 自主导航的方法 (57)摘要 本发明公开了一种基于自然语言和机器视 觉实现机器人自主导航的方法,包括:1)机器人 从初始位置开始,在每一轮对话即每一时刻都获 取语言信息和视觉信息;2)通过注意力机制对语 言信息进行特征提取获得语义特征;通过 Resnet152对视觉信息进行特征提取,获得低阶 视觉特征和图像分类特征;通过faster‑RCNN和 U‑net对视觉信息进行特征提取,获得目标检测 特征和语义分割特征;3)通过注意力机制将当前 时刻及前一时刻的低阶视觉特征、图像分类特 征、目标检测特征、语义分割特征和语义特征进 B 行融合,得到融合特征;4)将融合特征输入 6 softmax分类器中进行当前时刻的移动方向预 0 6 0 测。本发明利用机器人所处环境的视觉信息和语 2 4 3 言信息,在无需预先获取精确度量地图的条件下 1 1 N 进行机器人自主导航。 C CN 113420606 B 权利要求书 1/4页 1.一种基于自然语言和机器视觉实现机器人自主导航的方法,其特征在于,包括以下 步骤: 1)机器人从初始位置开始,在每一轮对话即每一时刻都获取语言信息和视觉信息;其 中,所述语言信息包括指示机器人目标位置的指令以及描述机器人所处环境的对话记录, 所述对话记录包括当前位置即当前时刻产生的对话以及之前所有对话的集合,所述视觉信 息包括机器人当前位置的全景图像信息; 2)通过注意力机制对语言信息进行特征提取,获得语义特征;通过Resnet152对视觉信 息进行特征提取,获得低阶视觉特征以及图像分类特征;通过faster‑RCNN和U‑net分别对 视觉信息进行特征提取,获得目标检测特征以及语义分割特征; 3)通过注意力机制将当前时刻和前一时刻的低阶视觉特征、图像分类特征、目标检测 特征、语义分割特征和语义特征进行融合,得到融合特征,包括以下步骤: 3.1)将低阶视觉特征、图像分类特征、目标检测特征、语义分割特征与t‑1轮对线 时刻对应的融合特征进行融合,融合的过程描述为: 其中,v 、c 、o 、s 分别表示t轮对话的第i个子图的低阶视觉特征向量、图像分类 t,i t,i t,i t,i 特征向量、目标检测特征向量、语义分割特征向量,它们分别是低阶视觉特征矩阵V 、图像 t 分类特征矩阵C 、目标检测特征矩阵O 、语义分割特征矩阵S的向量; 表示t‑1时刻中获 t t t 得的融合特征,f 和f 表示非线性映射函数,l表示 的向量维度;融合后的低阶视觉特 v vlm 征向量、融合后的图像分类特征向量、融合后的目标检测特征向量、融合后的语义分割特征 向量分别为 3.2)将融合的低阶视觉特征、图像分类特征、目标检测特征、语义分割特征与语义特征 通过注意力机制进行进一步融合,其过程描述为: 2 2 CN 113420606 B 权利要求书 2/4页 其中, 分别表示t轮对话时经过融合的低阶视觉特征矩阵、 图像分类特征矩阵、目标检测特征矩阵、语义分割特征矩阵; 表示t轮对话时的语义特 征,经过和参数 相乘,映射为 h表示t轮对话时的语义特征 的维度;softmax表示 softmax函数; 分别表示经过注意力机制融合后的低阶视觉特 征、图像分类特征、目标检测特征、语义分割特征; 3.3)将融合的特征经过LSTM网络做进一步处理,并最终合并成最终编码特征,过程如 下: 其中, 分别表示经过LSTM网络处理的低阶视觉特征,图像分类 特征、目标检测特征、语义分割特征;concat表示向量的合并; 表示t轮对话对应的融合 特征,即最终编码特征; 4)将融合特征输入softmax分类器中进行当前时刻的移动方向预测,其中在每一时刻, 机器人都通过融合特征预测移动方向,最后当预测结果为停止时,即到达目标位置。 2.根据权利要求1所述的一种基于自然语言和机器视觉实现机器人自主导航的方法, 其特征在于:在步骤1)中,所述机器人所处环境的对话记录是指两个人类用户在机器人所 处环境中进行导航时产生的交流记录,其中,一个人类用户知道了整个室内环境的拓扑信 息,通过与另一个人类用户的问答交流指示其行走;每一个对话记录用H =D ,D ,..., t 1 2 D ,...,D 表示,H 表示第t轮对话时的对话记录,D 表示第i轮对话;机器人所处环境的视 i t‑1 t i 觉信息对应的全景图像被表示为C,该全景图像被拆分为12个子图,分别表示12个方向,并 表示为C=c ,c ,...,c ,...,c ,其中,c表示第i个子图。 1 2 i 12 i 3.根据权利要求1所述的一种基于自然语言和机器视觉实现机器人自主导航的方法, 其特征在于:在步骤2)中,通过注意力机制对语言信息进行特征提取,获得语义特征,包括 以下步骤: 2.1)每个包含t轮对话的对话记录H以及每个包含L个单词的一轮对话记录D描述为: H={D ,D ,...,D ,...,D} 1 2 i t 其中,D表示第i轮对话, 表示一轮对话中的第i个单词; i 2.2)将对话记录通过embedding层进行向量化,对应的向量化结果E描述为: E={G ,G ,...,G ,...,G } 1 2 i t 3 3 CN 113420606 B 权利要求书 3/4页 G ={g ,g ,...,g ,...,g } i 1 2 i L 其中,G 表示语义地图中第i轮对话的embedding向量,一共t轮对话;g 表示一轮对话中 i i 第i个单词的embedding向量,一共L个单词; 2.3)将对话记录的embedding向量通过LSTM网络进行编码,获取特征向量,获取特征向 量的过程描述为: {h ,h ,...,h }=LSTM({w ,w ,...,w ,...,w }) i,1 i,2 i,L i,1 i,2 i,j i,L d =h i i,L 其中,w 表示第i轮对话中的第j个单词的embedding向量,h 表示LSTM网络的最后一 i,j i,L 个时刻的状态向量,用d 来表示h , 是由对线个特征向量构成的特征矩 i i,L 阵; 2.4)将对话记录的特征矩阵和当前对话的特征向量分别通过注意力机制进行融合,融 合过程描述为: 其中,d 和d 分别表示状态向量h 和h ,A(d ,d)表示向量d 对于d 的注意力,W 、W 、 t i t,L i,L t i t i Q K W 表示模型的参数,c表示向量d 和d 的维度;softmax表示softmax函数,concat表示向量的 V t i 合并; 是由注意力值和所有d 加权合并的结果, 表示第t轮对话的对话历史对应的语 i 义特征,由 和d 合并得到; t 通过Resnet152对视觉信息进行特征提取,获得低阶视觉特征以及图像分类特征,通过 faster‑RCNN和U‑net分别对视觉信息进行特征提取,获得目标检测特征以及语义分割特 征:是指在每轮对话中,机器人来到新的位置,然后获取该位置下的全景视图,在t轮对话时 的对应的全景视图表示为P ,将P通过神经网络模型Resnet152进行特征提取,得到的特征 t t 结果作为低阶视觉特征,表示为V ,得到的图像分类结果作为图像分类特征,表示为C ;将P t t t 输入到faster‑RCNN网络中,得到的目标检测结果作为目标检测特征,表示为O ;将P输入到 t t U‑net网络中,得到的语义分割结果作为语义分割特征,表示为S 。 t 4.根据权利要求1所述的一种基于自然语言和机器视觉实现机器人自主导航的方法, 其特征在于:在步骤4)中,将融合特征输入softmax分类器中进行移动方向预测,包括以下 步骤: 4.1)将最终编码特征 用激活函数进行映射,其过程如下: 其中,σ为sigmoid激活函数,f为非线性映射函数, 为激活结果; m 4 4 CN 113420606 B 权利要求书 4/4页 4.2)将激活结果经过softmax函数计算最后结果,过程如下: 其中,softmax表示softmax函数,f 为非线页 一种基于自然语言和机器视觉实现机器人自主导航的方法 技术领域 [0001] 本发明涉及自然语言处理、图像处理、自主导航的技术领域,尤其是指一种基于自 然语言和计算机视觉实现移动机器人室内自主导航的方法。 背景技术 [0002] 近年来,机器人自主导航在生产生活中应用越来越广泛,越来越多的应用场景需 要精确且高效的自主导航技术。以往的自主导航方法,需要先对环境进行一次扫描,获取精 确的度量地图,根据精确度量地图进行自主导航。获取精确的度量地图需要消耗大量的人 力和物力,并且基于精确度量地图的自主导航方法,难以迁移到未知环境下。因此基于自然 语言和计算机视觉的自主导航方法的研究具有重大意义。 [0003] 目前,机器人自主导航研究方面主要采用基于精确度量地图的方法,但还面临如 下问题: [0004] (1)获取精确度量地图需要消耗大量的资源和时间对环境预先进行扫描,获取精 确度量地图的成本较大。 [0005] (2)在一些难以观测的复杂场景下,获取精确度量地图的难度和开销更大,基于精 确度量地图的导航方法可能无法实施。 [0006] (3)导航效果取决于度量地图的精确程度,一些难以获取精确度量地图的场合,导 航效果会变得很差。 [0007] (4)基于精确度量地图的自主导航方法,是基于环境的度量信息进行导航的,没有 利用到语义信息,视觉信息,这使这类方法难以迁移到未知环境中。 发明内容 [0008] 本发明的目的在于克服现有技术的缺点与不足,提出了一种基于自然语言和机器 视觉实现移动机器人室内自主导航的方法,能够利用机器人所处环境的视觉信息和自然语 言对话记录,在无需预先获取精确度量地图的条件下进行机器人的自主导航。 [0009] 为实现上述目的,本发明所提供的技术方案为:一种基于自然语言和机器视觉实 现机器人自主导航的方法,包括以下步骤: [0010] 1)机器人从初始位置开始,在每一轮对话即每一时刻,都获取语言信息和视觉信 息;其中,所述语言信息包括指示机器人目标位置的指令以及描述机器人所处环境的对话 记录,所述对话记录包括当前位置即当前时刻产生的对话以及之前所有对话的集合,所述 视觉信息包括机器人当前位置的全景图像信息; [0011] 2)通过注意力机制对语言信息进行特征提取,获得语义特征;通过Resnet152对视 觉信息进行特征提取,获得低阶视觉特征以及图像分类特征;通过faster‑RCNN和U‑net分 别对视觉信息进行特征提取,获得目标检测特征以及语义分割特征; [0012] 3)通过注意力机制将当前时刻以及前一时刻的低阶视觉特征、图像分类特征、目 标检测特征、语义分割特征和语义特征进行融合,得到融合特征; 6 6 CN 113420606 B 说明书 2/8页 [0013] 4)将融合特征输入softmax分类器中进行当前时刻的移动方向预测,其中在每一 时刻,机器人都通过融合特征预测移动方向,最后当预测结果为停止时,即到达目标位置。 [0014] 在步骤1)中,所述机器人所处环境的对话记录是指两个人类用户在机器人所处环 境中进行导航时产生的交流记录,其中,一个人类用户提取知道了整个室内环境的拓扑信 息,通过与另一个人类用户的问答交流指示其行走;每一个对话记录用H =D ,D ,..., t 1 2 D ,...,D 表示,H 表示第t轮对话时的对话记录,D 表示第i轮对话;机器人所处环境的视 i t‑1 t i 觉信息对应的全景图像被表示为C,该全景图像被拆分为12个子图,分别表示12个方向,并 表示为C=c ,c ,...,c ,...,c ,其中,c表示第i个子图。 1 2 i 12 i [0015] 在步骤2)中,通过注意力机制对语言信息进行特征提取,获得语义特征,包括以下 步骤: [0016] 2.1)每个包含t轮对话的对话记录H以及每个包含L个单词的一轮对线] H={D ,D ,...,D ,...,D} 1 2 i t [0018] [0019] 其中,D表示第i轮对话, 表示一轮对话中的第i个单词; i [0020] 2.2)将对话记录通过embedding层进行向量化,对应的向量化结果E描述为: [0021] E={G ,G ,...,G ,...,G } 1 2 i t [0022] G ={g ,g ,...,g ,...,g } i 1 2 i L [0023] 其中,G 表示语义地图中第i轮对话的embedding向量,一共t轮对话;g 表示一轮对 i i 话中第i个单词的embedding向量,一共L个单词; [0024] 2.3)将对话记录的embedding向量通过LSTM网络进行编码,获取特征向量,获取特 征向量的过程描述为: [0025] {h ,h ,...,h }=LSTM({w ,w ,...,w ,...,w }) i,1 i,2 i,L i,1 i,2 i,j i,L [0026] d =h i i,L [0027] [0028] 其中,w 表示第i轮对话中的第j个单词的embedding向量,h 表示LSTM网络的最 i,j i,L 后一个时刻的状态向量,用d 来表示h , 是由对线个特征向量构成的特 i i,L 征矩阵; [0029] 2.4)将对话记录的特征矩阵和当前对话的特征向量分别通过注意力机制进行融 合,融合过程描述为: [0030] [0031] [0032] [0033] [0034] 其中,d 和d 分别表示状态向量h 和h ,A(d ,d )表示向量d 对于d 的注意力, t i t,L i,L t i t i 7 7 CN 113420606 B 说明书 3/8页 W 、W 、W表示模型的参数,c表示向量d 和d 的维度;softmax表示softmax函数,concat表示 Q K V t i 向量的合并; 是由注意力值和所有d 加权合并的结果, 表示第t轮对话的对话历史对 i 应的语义特征,由 和d 合并得到; t [0035] 通过Resnet152对视觉信息进行特征提取,获得低阶视觉特征以及图像分类特征, 通过faster‑RCNN和U‑net分别对视觉信息进行特征提取,获得目标检测特征以及语义分割 特征:是指在每轮对话中,机器人来到新的位置,然后获取该位置下的全景视图,在t轮对话 时的对应的全景视图表示为P ,将P通过神经网络模型Resnet152进行特征提取,得到的特 t t 征结果作为低阶视觉特征,表示为V ,得到的图像分类结果作为图像分类特征,表示为C ;将 t t P 输入到faster‑RCNN网络中,得到的目标检测结果作为目标检测特征,表示为O ;将P输入 t t t 到U‑net网络中,得到的语义分割结果作为语义分割特征,表示为S 。 t [0036] 在步骤3)中,通过注意力机制将当前时刻以及前一时刻的低阶视觉特征、图像分 类特征、目标检测特征、语义分割特征和语义特征进行融合,得到融合特征,包括以下步骤: [0037] 3.1)将低阶视觉特征、图像分类特征、目标检测特征、语义分割特征与t‑1轮对线时刻对应的融合特征进行融合,融合的过程描述为: [0038] [0039] [0040] [0041] [0042] 其中,v 、c 、o 、s 分别表示t轮对话的第i个子图的低阶视觉特征向量、图像 t,i t,i t,i t,i 分类特征向量、目标检测特征向量、语义分割特征向量,它们分别是低阶视觉特征矩阵V 、 t 图像分类特征矩阵C 、目标检测特征矩阵O 、语义分割特征矩阵S的向量; 表示t‑1时刻 t t t 中获得的融合特征,f和f 表示非线性映射函数,l表示 的向量维度;融合后的低阶视 v vlm 觉特征向量、融合后的图像分类特征向量、融合后的目标检测特征向量、融合后的语义分割 特征向量分别为 [0043] 3.2)将融合的低阶视觉特征、图像分类特征、目标检测特征、语义分割特征与语义 特征通过注意力机制进行进一步融合,其过程描述为: [0044] [0045] [0046] 8 8 CN 113420606 B 说明书 4/8页 [0047] [0048] [0049] 其中, 分别表示t轮对话时经过融合的低阶视觉特征矩 阵、图像分类特征矩阵、目标检测特征矩阵、语义分割特征矩阵; 表示t轮对话时的语义 特征,经过和参数 相乘,映射为 h表示t轮对话时的语义特征 的维度;softmax表 示softmax函数; 分别表示经过注意力机制融合后的低阶视觉特 征、图像分类特征、目标检测特征、语义分割特征; [0050] 3.3)将融合的特征经过LSTM网络做进一步处理,并最终合并成最终编码特征,过 程如下: [0051] [0052] [0053] [0054] [0055] [0056] 其中, 分别表示经过LSTM网络处理的低阶视觉特征,图像 分类特征、目标检测特征、语义分割特征;concat表示向量的合并; 表示t轮对话对应的 融合特征,即最终编码特征。 [0057] 在步骤4)中,将融合特征输入softmax分类器中进行移动方向预测,包括以下步 骤: [0058] 4.1)将最终编码特征 用激活函数进行映射,其过程如下: [0059] [0060] 其中,σ为sigmoid激活函数,f为非线性映射函数, 为激活结果; m [0061] 4.2)将激活结果经过softmax函数计算最后结果,过程如下: [0062] [0063] 其中,softmax表示softmax函数,f 为非线] 本发明与现有技术相比,具有如下优点与有益效果: [0065] 1、本发明提出使用视觉信息和自然语言进行机器人自主导航,节约了获取精确度 量地图带来的开销并且可以适应复杂环境。 [0066] 2、本发明提出结合自然语言指令和机器视觉进行机器人自主导航,能够更方便, 高效的进行机器人自主导航。 [0067] 3、本发明结合了自然语言指令和机器视觉,通过结合两种不同模态信息的特征进 行机器人自主导航,在保证导航效果的同时提高了导航效率,节约了开销。 9 9 CN 113420606 B 说明书 5/8页 附图说明 [0068] 图1为本发明进行自主导航的流程示意图。 [0069] 图2为基于注意力机制的特征提取及导航指令预测的模型架构构造过程示意图。 [0070] 其中,对话历史表示机器人的提问以及人类用户的回答记录;当前时刻的对话表 示本轮对话中机器人的提问以及人类用户的回答;Encoding表示对对话信息进行编码处理,转 化为embedding向量;机器视觉图像分别通过Resnet152,Faster R‑CNN,U‑net几种模型提取 到低阶视觉特征 图像分类特征 目标检测特征 语义分割特征 等;Attention表 示注意力模块,该模块用于提取语义信息的特征 视觉信息的特征提取,以及融合语义特 征,视觉特征和t‑1轮对线时刻中获得的融合特征 等; 分别表示与语义特征融合后的低阶视觉特征、图像分类特征、目标检测特征、语义分割特 征;融合后的特征被输入到softmax模块并计算出最后结果。 [0071] 图3为注意力机制原理示意图。其中,d ,d 分别表示被用来计算注意力的特征向 t i 量;W ,W ,W是用来将d 和d 映射到同一维度的参数;Matmul表示矩阵相乘;计算结果通过 Q K V t i softmax模块进行归一化,得到注意力结果A(d ,d);通过将所有注意力模块的结果合并,再 t i 合并d ,得到最后结果 t 具体实施方式 [0072] 下面结合具体实施例及附图对本发明作进一步说明,但本发明的实施方式不限于 此。 [0073] 如图1至图3所示,本实施例所提供的基于自然语言和机器视觉实现机器人自主导 航的方法,包括以下步骤: [0074] 1)机器人从初始位置开始,在每一轮对话(每一时刻)都获取语言信息和视觉信 息;所述语言信息包括指示机器人目标位置的指令以及描述机器人所处环境的对话记录, 所述对话记录包括当前位置(即当前时刻)产生的对话以及之前所有对话的集合,所述视觉 信息包括机器人当前位置的全景图像信息;所述机器人所处环境的对话记录是指两个人类 用户在机器人所处环境中进行导航时产生的交流记录,其中,一个人类用户提取知道了整 个室内环境的拓扑信息,通过与另一个人类用户的问答交流指示其行走;每一个对话记录 用H =D ,D ,...,D ,...,D 表示,H 表示第t轮对话时的对话记录,D 表示第i轮对线 t i 机器人所处环境的视觉信息对应的全景图像被表示为C,该全景图像被拆分为12个子图,分 别表示12个方向,并表示为C=c ,c ,...,c ,...,c ,其中,c表示第i个子图,如图2中的备 1 2 i 12 i 选行动方向对应的图像所示。 [0075] 2)通过注意力机制对语言信息进行特征提取,获得语义特征,包括以下步骤: [0076] 2.1)每个包含t轮对话的对话记录H以及每个包含L个单词的一轮对线] H={D ,D ,...,D ,...,D} 1 2 i t [0078] [0079] 其中,D表示第i轮对话, 表示一轮对话中的第i个单词; i 10 10 CN 113420606 B 说明书 6/8页 [0080] 2.2)将对话记录通过embedding层进行向量化,对应的向量化结果描述为: [0081] E={G ,G ,...,G ,...,G } 1 2 i t [0082] G ={g ,g ,...,g ,...,g } i 1 2 i L [0083] 其中,G 表示语义地图中第i轮对话的embedding向量,一共t轮对话;g 表示一轮对 i i 话中第i个单词的embedding向量,一共L个单词; [0084] 2.3)将对话记录的embedding向量通过LSTM网络进行编码,获取特征向量,获取特 征向量的过程描述为: [0085] {h ,h ,...,h }=LSTM({w ,w ,...,w ,...,w }) i,1 i,2 i,L i,1 i,2 i,j i,L [0086] d =h i i,L [0087] [0088] 其中,w 表示第i轮对话中的第j个单词的embedding向量,h 表示LSTM网络的最 i,j i,L 后一个时刻的状态向量,用d 来表示h , 是由对线个特征向量构成的特 i i,L 征矩阵; [0089] 2.4)将对话记录的特征矩阵和当前对话的特征向量分别通过注意力机制进行融 合,注意力机制的原理以及注意力结果的计算过程如图3所示,融合过程描述为: [0090] [0091] [0092] [0093] [0094] 其中,d 和d 分别表示状态向量h 和h ,A(d ,d )表示向量d 对于d 的注意力, t i t,L i,L t i t i W 、W 、W表示模型的参数,c表示向量d 和d 的维度;softmax表示softmax函数,concat表示 Q K V t i 向量的合并; 是由注意力值和所有d 加权合并的结果, 表示第t轮对话的对话历史对 i 应的语义特征,由 和d 合并得到; t [0095] 如图2所示,通过Resnet152对视觉信息进行特征提取,获得低阶视觉特征以及图 像分类特征,通过faster‑RCNN和U‑net分别对视觉信息进行特征提取,获得目标检测特征 以及语义分割特征,具体是指在每轮对话中,机器人来到新的位置,然后获取该位置下的全 景视图,在t轮对话时的对应的全景视图表示为P ;将P通过神经网络模型Resnet152进行特 t t 征提取,得到的特征结果作为低阶视觉特征,表示为V ,得到的图像分类结果作为图像分类 t 特征,表示为C ;将P输入到faster‑RCNN网络中,得到的目标检测结果作为目标检测特征, t t 表示为O ;将P输入到U‑net网络中,得到的语义分割结果作为语义分割特征,表示为S 。 t t t [0096] 3)通过注意力机制将当前时刻以及前一时刻的低阶视觉特征、图像分类特征、目 标检测特征、语义分割特征和语义特征进行融合,得到融合特征,包括以下步骤: [0097] 3.1)将低阶视觉特征、图像分类特征、目标检测特征、语义分割特征与t‑1轮对线时刻对应的融合特征进行融合,融合的过程描述为: 11 11 CN 113420606 B 说明书 7/8页 [0098] [0099] [0100] [0101] [0102] 其中,v 、c 、o 、s 分别表示t轮对话的第i个子图的低阶视觉特征向量、图像 t,i t,i t,i t,i 分类特征向量、目标检测特征向量、语义分割特征向量,它们分别是低阶视觉特征矩阵V 、 t 图像分类特征矩阵C 、目标检测特征矩阵O 、语义分割特征矩阵S的向量; 表示t‑1时刻 t t t 中获得的融合特征,f和f 表示非线性映射函数,l表示 的向量维度;融合后的低阶视 v vlm 觉特征向量、融合后的图像分类特征向量、融合后的目标检测特征向量、融合后的语义分割 特征向量分别为 [0103] 3.2)将融合的低阶视觉特征、图像分类特征、目标检测特征、语义分割特征与语义 特征通过注意力机制进行进一步融合,其过程描述为: [0104] [0105] [0106] [0107] [0108] [0109] 其中, 分别表示t轮对话时经过融合的低阶视觉特征矩 阵、图像分类特征矩阵、目标检测特征矩阵、语义分割特征矩阵; 表示t轮对话时的语义 特征,经过和参数 相乘,映射为 h表示t轮对话时的语义特征 的维度;softmax表 示softmax函数; 分别表示经过注意力机制融合后的低阶视觉特 征、图像分类特征、目标检测特征、语义分割特征; [0110] 3.3)将融合的特征经过LSTM网络做进一步处理并最终合并成最终编码特征,过程 如下: [0111] [0112] 12 12 CN 113420606 B 说明书 8/8页 [0113] [0114] [0115] [0116] 其中, 分别表示经过LSTM网络处理的低阶视觉特征,图像 分类特征、目标检测特征、语义分割特征;concat表示向量的合并; 表示t轮对话对应的 融合特征,即最终编码特征。 [0117] 4)将融合特征输入softmax分类器中进行移动方向预测,包括以下步骤: [0118] 4.1)将最终编码特征 用激活函数进行映射,其过程如下: [0119] [0120] 其中,σ为sigmoid激活函数,f为非线性映射函数, 为激活结果; m [0121] 4.2)将激活结果经过softmax函数计算最后结果,过程如下: [0122] [0123] 其中,softmax表示softmax函数,f 为非线] 以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,其 他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等 效的置换方式,都包含在本发明的保护范围之内。 13 13 CN 113420606 B 说明书附图 1/3页 图1 14 14 CN 113420606 B 说明书附图 2/3页 图2 15 15 CN 113420606 B 说明书附图 3/3页 图3 16 16
2、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问加。
3、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
4、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
第三单元写作《学习描写景物》课件+2024—2025学年统编版语文八年级上册.pptx
原创力文档创建于2008年,本站为文档C2C交易模式,即用户上传的文档直接分享给其他用户(可下载、阅读),本站只是中间服务平台,本站所有文档下载所得的收益归上传人所有。原创力文档是网络服务平台方,若您的权利被侵害,请发链接和相关诉求至 电线) ,上传者
