图像识别方法及系统与流程

文档序号：20120983发布日期：2020-03-20 05:22阅读：693来源：国知局

导航： X技术> 最新专利> 计算;推算;计数设备的制造及其应用技术

本发明涉及计算机技术领域，具体涉及一种图像识别方法及系统。

背景技术：

在现实生活中，人的多元感知是由视觉、听觉、触觉和嗅觉等构成的。人们感知世界的方式有很多种，如看到的物体，听到的声音，感觉的质地，闻到的味道等。描述事物的不变性特征称为模态特征。在计算机视觉和多媒体分析中，往往利用多个模态特征来从不同角度对同一个对象进行表征。例如，要很好地表征自然场景图像，通常会提取一组视觉特征代表它的颜色，纹理或形状等。如何充分挖掘这些不同模态特征的互补信息和相关信息，进而提升图像识别性能，已经成为计算机视觉领域的热点和难点问题。超图由于能够刻画多个不同对象之间的复杂关系而被广泛应用于图像识别领域。

现有技术中，在构建超图的过程中，将每一个样本的多个模态特征拼接为一个长的特征向量。根据长的特征向量构建超边，最终生成一个具有n个结点的超图。这种构建超图的方法忽略了不同模态特征的差异性，无法保证同一超边内的样本结点的相似性，没有充分利用不同模态特征之间的互补信息和相关信息。

技术实现要素：

有鉴于此，本发明实施例提供了一种图像识别方法和系统，基于联合超图学习，以完成图像识别。

根据本发明的一方面，提供一种图像识别方法，包括：从图像训练样本中提取多个模态的图像特征；根据所述多个模态的图像特征构建多个超图；对所述多个超图进行联合学习；以及根据联合学习获得的局部最优解，进行图像分类。

优选地，所述多个超图分别包括各自的顶点集合和超边集合。。

优选地，对所述多个超图进行联合学习的步骤包括：构建目标模型，所述目标模型包括超边权重和预测函数；对所述目标模型中的超边权重和预测函数进行交替迭代优化；以及在交替迭代收敛时获得所述预测函数的局部最优解。

优选地，所述交替迭代优化包括：固定超边权重，优化预测函数，其中，将目标模型中与变量预测函数无关项去掉，获得预测函数的解析解；以及固定预测函数，优化超边权重，其中，将目标模型中与变量超边权重无关项去掉，获得超边权重的解析解。

优选地，所述图像识别方法还包括：采集图像测试样本并获取与所述图像测试样本相对应的类别标号向量；利用所述图像测试样本对所述目标模型进行验证，并根据验证结果对所述目标模型的参数进行调整和优化。

优选地，所述利用所述图像测试样本对所述目标模型进行验证，并根据验证结果对所述目标模型的参数进行调整和优化包括：将所述图像测试样本应用到所述预测函数得到与所述图像测试样本相对应的预测标号向量；以及比较与所述图像测试样本相对应的预测标号向量和类别标号向量。

优选地，所述利用所述图像测试样本对所述目标模型进行验证，并根据验证结果对所述目标模型的参数进行调整和优化还包括：根据比较结果，若交替迭代优化过程未达到预测函数的局部最优解，则对所述目标模型中超边的权重和预测函数进行进一步交替迭代优化；根据比较结果，若交替迭代优化过程收敛到预测函数的局部最优解，则得到所述目标模型的所述预测函数。

优选地，所述根据联合学习获得的局部最优解，进行图像分类包括：获取未知图像；以及将所述未知图像应用到所述预测函数得到所述未知图像的识别结果。

优选地，根据所述多个模态的图像特征分别使用k近邻方法构建超边集合。

优选地，所述多个模态的图像特征包括以下至少之一：颜色矩特征向量、局部二维直方图特征向量和方向梯度直方图特征向量。

优选地，提取所述颜色矩特征向量的具体步骤包括：将所述图像训练样本的每一个图像分割为不重叠的多个网格；在每个网格的图像的多个通道中分别计算其颜色均值、颜色方差和颜色偏斜度的特征向量；以及将所述每个网格中计算得到的颜色均值、颜色方差和颜色偏斜度的特征向量连接起来形成颜色矩特征向量。

优选地，提取所述局部二维直方图特征向量的具体步骤包括：将所述图像训练样本的每一个图像分割为不重叠的多个网格；通过比较每一个图像的居中网格的图像像素与周围网格的图像像素得到局部二维直方图特征向量。

优选地，所述局部二维直方图特征向量具有良好的光照不变性。

优选地，提取所述方向梯度直方图特征向量的具体步骤包括：将所述图像训练样本的每一个图像分割为多个区块；计算每个区块的方向梯度直方图特征向量；以及使用逐块的形式对所述每个区块的方向梯度直方图特征向量进行标准化得到方向梯度直方图特征向量。

根据本发明的另一方面，提供一种图像识别系统，包括：模态特征提取模块：从图像训练样本中提取多个模态的图像特征；目标模型建立模块：用于根据所述多个模态的图像特征构建多个超图；联合学习模块：用于对所述多个超图进行联合学习；预测模块：根据联合学习获得的局部最优解，进行图像分类；

优选地，所述图像识别系统还包括：图像采集模块：用于采集图像训练样本并获取与所述图像训练样本相对应的类别标号向量；以及采集图像测试样本并获取与所述图像测试样本相对应的类别标号向量；测试模块：利用所述图像测试样本对所述目标模型进行验证，并根据验证结果对所述目标模型的参数进行调整和优化。

根据本发明的又一方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令被执行时实现如上所述的图像识别方法。

根据本发明的再一方面，提供一种图像识别的控制装置，包括：存储器，用于存储计算机指令；处理器，耦合到所述存储器，所述处理器被配置为基于所述存储器存储的计算机指令执行实现如下所述的图像识别方法。

本发明的一个实施例具有以下优点或有益效果：对所述多个超图进行联合学习；以及根据联合学习获得的局部最优解，进行图像分类。避免使用由一个样本的所有不同模态特征向量拼接成的长特征向量进行样本间相似性度量，保证同一超边内的样本结点的相似性，从而最大限度的保持了不同模态的图像特征之间的互补信息和相关信息。

附图说明

通过参照以下附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1示出本发明的一个实施例的图像识别方法的流程示意图。

图2示出本发明的一个实施例的图像识别方法的流程示意图。

图3示出本发明的一个实施例的图像识别系统的结构示意图。

图4示出本发明的一个实施例的图像识别的控制装置的结构图。

具体实施方式

以下基于实施例对本发明进行描述，但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质，公知的方法、过程、流程没有详细叙述。另外附图不一定是按比例绘制的。

在图像识别技术中，一个超图由顶点集合超边集合ε＝{e1,e2,…,ed}和超边权重向量w组成。e∈ε的相应超边的权重表示为w(e)，其值默认设置为1。超图可以由大小为的指示矩阵h表示：

对于结点基于指示矩阵h，结点的度定义为：

类似的，超边e∈ε的度定义为：

dv和de分别表示以结点的度和超边的度为对角元素的对角矩阵。dw表示大小为|ε|×|ε|的超边权重矩阵，其对角元素为超边的权重w(e)。

假设现有n个样本，其中每一个样本均具有m个模态的特征。在每一个样本上，通过将m个模态的特征向量串联拼接为一个长的特征向量。根据长的特征向量构建超边，最终生成一个具有n个结点的超图超图学习的目标函数定义为：

其中，ωf是超图拉普拉斯正则化项，remp(f)为经验损失项，可以使用均方误差损失或者合页损失。λ>0是正则化参数，用于平衡上式两项的相对权重大小。超图拉普拉斯正则化项ωf定义如下：

上述公式的直观理解为，当同一超边中的所有结点所具有的类别标号相近，公式(5)取得较小的值。令

l＝i-λ，

得到整理后的超图正则化项如下：

ωf＝f^tlf(6)

其中，l是一个半正定矩阵被称为超图拉普拉斯，f＝[f1,f2,…,fn]^t是定义在(-1,1)上的预测函数。当使用均方误差损失作为经验损失项时目标函数具有如下闭式解：

在上面的公式中假设超边的权重都相同且为1。最终通过预测函数f实现图像的识别。

综上，发明人发现，上述的基于超图学习的图像识别方法存在以下不足：

在构建超图的过程中，上述图像识别方法将每一个样本的多个模态特征拼接为一个长的特征向量。根据长的特征向量构建超边，最终生成一个具有n个结点的超图。这种构建超图的方法忽略了不同模态特征的差异性，无法保证同一超边内的样本结点的相似性，没有充分利用不同模态特征之间的互补信息和相关信息。

在构建超图的过程中，上述图像识别方法将每一个样本的多个模态特征拼接为一个长的特征向量。假设一个样本的第m个模态特征的特征维数为pm，那么一个样本的所有模态特征拼接成的长的特征向量所具有的维度为这种构建超图的方法中高维度的特征向量容易导致维数灾难问题，在高维特征空间中难以对两两样本的相似度距离进行准确度量，从而无法准确构建超图。

在构建超图的过程中，上述图像识别方法中每一条超边的权重均默认为1。由于不同超边所包含的样本类别不同，样本的重要性也不相同。对于那些包含相同类别样本数目较多的超边应具有较大的权重，而那些包含较多不同类别样本数目的超边应给予较小的权重。这种构建超图的方法的超边权重设置单一，从而降低了上述基于超图学习的图像识别方法的判别能力。

图1是本发明一个实施例的图像识别方法的流程示意图，具体包括以下步骤。

在步骤s101中，从图像训练样本中提取多个模态的图像特征。

在步骤s102中，根据所述多个模态的图像特征构建多个超图。

在步骤s103中，对所述多个超图进行联合学习。

在步骤s104中，根据联合学习获得的局部最优解，进行图像分类。

在本发明的一个实施例中，首先，从图像训练样本中提取多个模态的图像特征。然后，根据所述多个模态的图像特征构建多个超图。其次，对所述多个超图进行联合学习。最后，根据联合学习获得的局部最优解，进行图像分类。

根据本发明实施例，在构建超图的过程中，对所述多个超图进行联合学习；以及根据联合学习获得的局部最优解，进行图像分类。避免使用由一个样本的所有不同模态特征向量拼接成的长特征向量进行样本间相似性度量，保证同一超边内的样本结点的相似性，从而最大限度的保持了不同模态的图像特征之间的互补信息和相关信息。

图2是本发明一个实施例的图像识别方法的流程示意图，具体包括以下步骤：

在步骤s201中，采集图像训练样本并获取与所述图像训练样本相对应的类别标号向量。

在步骤s202中，从图像训练样本中提取多个模态的图像特征。

在步骤s203中，根据所述多个模态的图像特征构建多个超图。

在步骤s204中，构建目标模型，对所述目标模型中的超边权重和预测函数进行交替迭代优化，在交替迭代收敛时获得所述预测函数的局部最优解。

在步骤s205中，采集图像测试样本并获取与所述图像测试样本相对应的类别标号向量。

在步骤s206中，利用所述图像测试样本对所述目标模型进行验证，并根据验证结果对所述目标模型的参数进行调整和优化。

在本发明的一个实施例中，采集图像训练样本并获取与所述图像训练样本相对应的类别标号向量。从图像训练样本中提取多个模态的图像特征。所述多个超图分别包括各自的顶点集合和超边集合。所述多个超图分别包括各自的顶点集合和超边集合。构建目标模型，对所述目标模型中的超边权重和预测函数进行交替迭代优化，在交替迭代收敛时获得所述预测函数的局部最优解。采集图像测试样本并获取与所述图像测试样本相对应的类别标号向量。利用所述图像测试样本对所述目标模型进行验证，并根据验证结果对所述目标模型的参数进行调整和优化。

根据本发明实施例，在构建超图的过程中，根据所述多个模态的图像特征构建多个超图。所述多个超图分别包括各自的顶点集合和超边集合。无需将每一个样本的多个模态特征拼接为一个长的特征向量来构建超边。从而降低了模态特征的特征维度，提高了构建超图的准确性。

在本发明的一个实施例中，所述目标模型的目标公式为：

其中，ωf是超图拉普拉斯正则化项，f＝[f1,f2,…,fn]^t是定义在(-1,1)上的预测函数，y＝[y1,y2,…,yn]^t∈rⁿ为n个训练样本的类别标号向量，w＝[w¹,w²,…,w^m]∈r^d×m是由不同模态的图像特征的权重向量组成的权重矩阵，λ和γ是正则化参数。

由于目标模型中变量w和f耦合在一起，所以对所述目标模型中的超边权重和预测函数进行交替迭代优化。当固定w优化f时，其中，将目标模型中与变量f无关项去掉，得到如下优化问题：

对上式f求导，并令导数为零，获得预测函数的解析解：

然后固定f，优化w，其中，将目标模型中与变量w无关项去掉，得到如下的优化问题：

对上式w进行求导,并令导数为零，获得超边权重的解析解。

将每次迭代后优化的f和w的值来初始化下一次迭代中的f和w，如此反复迭代优化，当所述预测函数和所述超边权重交替迭代收敛时获得所述预测函数的局部最优解。

根据本发明实施例，在构建超图的过程中，对所述目标模型中的超边权重和预测函数进行交替迭代优化；以及在交替迭代收敛时获得所述预测函数的局部最优解，最终得到准确反映超边的重要性的超边权重，从而提高了图像识别方法的判别能力。

在一个实施例中，所述从图像训练样本中提取多个模态的图像特征的所述多个模态的图像特征包括以下至少之一：颜色矩特征向量、局部二维直方图特征向量和方向梯度直方图特征向量。

其中，提取所述颜色矩特征向量的具体步骤包括：将所述图像训练样本的每一个图像分割为不重叠的3×3大小的网格；在每个网格的图像的三个通道中分别计算其颜色均值、颜色方差和颜色偏斜度的特征向量；以及将所述每个网格中计算得到的颜色均值、颜色方差和颜色偏斜度的特征向量连接起来形成特征维度为81维的颜色矩特征向量。在一个实施例中，假设颜色矩特征向量构成的样本矩阵为其中n为样本数量，dcm为样本颜色矩特征向量的特征维度。以样本为例，将其作为结点，计算其k个近邻样本。将这k+1个样本的集合作为一条超边。然后根据每一个样本均生成一条超边，那么由颜色矩模态的图像特征一共生成n条超边。

提取所述局部二维直方图特征向量的具体步骤包括：将所述图像训练样本的每一个图像分割为不重叠的3×3大小的网格；通过比较每一个图像的居中网格的图像像素与周围网格的图像像素得到特征维度为58维的局部二维直方图特征向量。所述局部二维直方图特征向量具有良好的光照不变性。

提取所述方向梯度直方图特征向量的具体步骤包括：将所述图像训练样本的每一个图像分割为多个区块；计算每个区块的方向梯度直方图特征向量；以及使用逐块的形式对所述每个区块的方向梯度直方图特征向量进行标准化得到特征维度为31维的方向梯度直方图特征向量。

图3是本发明的一个实施例的图像识别系统的结构示意图。如图3所示，该系统30包括：模态特征提取模块301、目标模型建立模块302、联合学习模块303、预测模块304、图像采集模块305和测试模块306。

模态特征提取模块301：用于从图像训练样本中提取多个模态的图像特征。

目标模型建立模块302：用于根据所述多个模态的图像特征构建多个超图。

联合学习模块303：用于对所述多个超图进行联合学习。

预测模块304：根据联合学习获得的局部最优解，进行图像分类。

图像采集模块305：用于采集图像训练样本并获取与所述图像训练样本相对应的类别标号向量；以及采集图像测试样本并获取与所述图像测试样本相对应的类别标号向量。

测试模块306：利用所述图像测试样本对所述目标模型进行验证，并根据验证结果对所述目标模型的参数进行调整和优化。

在本发明的一个实施例中，测试模块306将所述图像测试样本应用到所述预测函数得到与所述图像测试样本相对应的预测标号向量；以及比较与所述图像测试样本相对应的预测标号向量和类别标号向量。根据比较结果，若交替迭代优化过程未达到预测函数的局部最优解，则对所述目标模型中超边的权重和预测函数进行进一步交替迭代优化；根据比较结果，若交替迭代优化过程收敛到预测函数的局部最优解，则得到所述目标模型的所述预测函数。

在一个实施例中，所述预测模块304获取未知图像，以及将所述未知图像应用到所述预测函数得到所述未知图像的识别结果。

图4是根据本发明实施例的图像识别的控制装置的结构图。图4示出的设备仅仅是一个示例，不应对本发明实施例的功能和使用范围构成任何限制。

参考图4，该装置包括通过总线连接的处理器401、存储器402和输入输出设备403。存储器402包括只读存储器(rom)和随机访问存储器(ram)，存储器402内存储有执行系统功能所需的各种计算机指令和数据，处理器401从存储器402中读取各种计算机指令以执行各种适当的动作和处理。输入输出设备包括键盘、鼠标等的输入部分；包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分；包括硬盘等的存储部分；以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分。存储器402还存储有以下的计算机指令以完成本发明实施例的图像识别方法规定的操作：从图像训练样本中提取多个模态的图像特征；根据所述多个模态的图像特征构建多个超图；对所述多个超图进行联合学习；以及根据联合学习获得的局部最优解，进行图像分类。

相应地，本发明实施例提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机指令，所述计算机指令被执行时实现上述图像识别的控制方法所规定的操作。

附图中的流程图、框图图示了本发明实施例的系统、方法、装置的可能的体系框架、功能和操作，流程图和框图上的方框可以代表一个模块、程序段或仅仅是一段代码，所述模块、程序段和代码都是用来实现规定逻辑功能的可执行指令。也应当注意，所述实现规定逻辑功能的可执行指令可以重新组合，从而生成新的模块和程序段。因此附图的方框以及方框顺序只是用来更好的图示实施例的过程和步骤，而不应以此作为对发明本身的限制。

以上所述仅为本发明的一些实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页 1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：祖辰
技术所有人：北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司
我是此专利的发明人

上一篇：一种炉辊轴承座底座搬运小车的制作方法
上一篇：自适应时长调整方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。