图像分类经典卷积神经网络—ZFNet论文翻译(纯中文版)—Visualizing and Understanding Convolutional Networks(可视化和理解卷积网络)

30 篇文章 91 订阅
订阅专栏

图像分类经典论文翻译汇总:[翻译汇总]

翻译pdf文件下载: [下载地址]

此版为中英文对照版,纯中文版请稳步:[ ZFNet中英文对照版]

Visualizing and Understanding Convolutional Networks

可视化和理解卷积网络

Matthew D. Zeiler

Rob Fergus

Dept. of Computer Science, New York University, USA(美国纽约大学计算机科学系)

{zeiler,fergus}@cs.nyu.edu

摘要

大型卷积网络模型最近在ImageNet基准测试上表现出了令人印象深刻的分类性能Krizhevsky[18]。然而,人们还没有明确的理解他们为什么表现如此之好,或者如何改进它们。在本文中,我们将探讨这两个问题。我们介绍了一种新的可视化技术,可以深入了解中间特征层的功能和分类器的操作。作为诊断的手段,这些可视化技术使我们能够找到优于Krizhevsky等人在ImageNet分类基准的模型架构。我们还进行了消融研究,以发现不同模型层的在模型性能上的贡献。我们的研究表明我们的ImageNet模型能很好地泛化到其他数据集:当softmax分类器被重新训练时,它令人信服地击败了Caltech-101Caltech-256数据集上当前最先进的结果。

1 引言

20世纪90年代早期LeCun[20]提出卷积网络以来,卷积网络(convnets)在手写数字分类和人脸检测等任务中表现出色。在过去的18个月中,有几篇论文表明,他们还可以在更具挑战性的视觉分类任务中具有更出色的表现。Ciresan[4]表明其在NORBCIFAR-10数据集上最好的性能。最值得注意的是,Krizhevsky[18]ImageNet 2012分类基准测试中获得了创纪录的表现,他们的卷积模型实现了16.4%的错误率,而第二名的结果是26.1%。基于这项研究工作,Girshick[10]研究报道了PASCAL VOC数据集上最佳的检测性能。有几个因素导致这种性能的显着提高:(i)具有数百万个标记样本的更大规模的训练集的可用性;ii)强大的GPU实现,使非常大的模型的训练成为现实;iii)更好的模型正则化策略,例如Dropout [14]

尽管取得了令人鼓舞的进展,但对这些复杂模型的内部操作和行为,或者它们如何实现如此良好的性能,仍然了解甚少。从科学的角度来看,这是非常令人不满意的。如果没有清楚地了解它们如何以及为何起作用,那么更好的模型的开发过程将被简化为试错。在本文中,我们介绍了一种可视化技术,该技术揭示了激发模型中任何层的单个特征映射的输入激励。它还允许我们在训练期间观察特征的演变并诊断模型的潜在问题。我们提出的可视化技术使用Zeiler[29]提出的多层反卷积网络(deconvnet),即将特征激活投影回输入像素空间。我们还通过遮挡输入图像的部分来进行分类器输出的灵敏度分析,从而揭示图像的哪些部分对于分类是重要的。

使用这些工具,我们从Krizhevsky[18]的架构开始,探索不同的架构,发现在ImageNet上超越其结果的架构。然后,我们探索模型对其他数据集的泛化能力,只需重新训练softmax分类器。因此,这是一种受监督的预训练形式,这不同于Hinton[13]和其他人[1,26]推广的无监督预训练方法。

1.1 相关工作

可视化:可视化特征以获得关于网络的直觉是常见的做法,但主要局限于可以投影到像素空间第一层。在较高层中,必须使用其它方法。[8]通过在图像空间中执行梯度下降来找到每个单元的最佳刺激,以最大化单元的激活。这需要谨慎的初始化,并且不提供有关单元不变量的任何信息。由后者的缺点所激发,[19](通过[2]扩展一个想法)揭示如何围绕最优响应以数字方式计算给定单元的Hessian矩阵,从而对不变量有所了解。问题是对于更高层,不变量非常复杂,因此通过简单的二次近似很难捕获。相反,我们的方法提供了不变量的非参数视图,显示了训练集中的哪些模式激活了特征映射。我们的方法类似于Simonyan[23]同期工作,他们揭示了如何通过从网络的全连接层投影回来而获得显着性图,而不是我们使用的卷积特征。Girshick[10]表明识别数据集中的补丁的可视化,这些补丁与模型中较高层的强激活相关。我们的可视化不同之处在于它们不仅仅是输入图像的裁剪,而是自上而下的投影,揭示每个图像块中刺激特定特征图的结构。

特征泛化:在Donahue[7]Girshick[10]的同期工作中也探讨了我们研究的卷积特征的泛化能力。他们使用卷积特征在前一个研究中获得Caltech-101Sun场景数据集的最佳性能,后者研究是在PASCAL VOC数据集上进行对象检测。

2 方法

根据LeCunKrizhevsky等的定义,我们在整篇论文中使用标准的完全监督的卷积模型。这些模型通过一系列层将彩色2D输入图像xi映射到C个不同类别上的概率向量yi。每层包括:(i)前一层输出(或在第一层的情况下,输入图像)与一组学习过滤器的卷积; ii)通过整流线性函数(relu(x) = max(x0))传递响应;(iii[可选地]在局部邻域上的最大池化和(iv[可选地]局部对比操作,其对特征映射之间的响应进行归一化。有关这些操作的更多详细信息,请参见[18][16]。网络的前几层是传统的全连接网络,最后一层是softmax分类器。图3显示了我们许多实验中使用的模型。

我们使用大量N个标记图像{xy}训练这些模型,其中标签yi是指示真实类的离散变量。适用于图像分类的交叉熵损失函数用于比较yiyi。网络的参数(卷积层中的滤波器,全连接层中的权重矩阵和偏差)通过相对于整个网络中的参数反向传播损耗的导数来训练,并通过随机梯度下降来更新参数。训练的详细情节见第3部分。

2.1 通过反卷积可视化

理解卷积网络的操作需要解释中间层的特征活动。我们提出了一种新颖的方法来将这些活动映射回输入像素空间,显示最初在特征映射中引起给定激活的输入模式。我们使用反卷积网络(deconvnetZeiler[29]实现此映射。反卷积网络可以被认为是一个使用相同组件(过滤,池化)的逆向的卷积模型,即不是将像素映射到特征,而是将特征映射到像素。在Zeiler[29]中,反卷积网络作为进行无监督学习的一种方式而被提出。在这里,它们不会用于任何学习能力,仅作为对已经训练好的卷积网络的探索。

如图1(上图)所示,为了检查一个卷积网络,网络的每个层都附有一个反卷积网络,提供了一条返回图像像素的连续路径。首先,将输入图像呈现给卷积网络并通过所有层计算特征。为了检查给定卷积网络的激活,我们将图层中的所有其他激活设置为零,并将特征图作为输入传递给附加的反卷积网络层。然后我们依次(i)反池化,(ii)纠正和(iii)过滤以重建下面的层中的活动,从而产生所选择的激活。 然后重复这一过程,直到达到输入像素空间。

1.上图:反卷积层(左)与卷积层(右)相连。反卷积网络将从下面的层重建一个近似版本的卷积网络特征。下图:反卷积网络中使用switch反池化操作的示意图,switch记录卷积网络池化时每个池化区域(彩色区域)中局部最大值的位置。黑/白条在特征图中表示负/正激活。

反池化:在卷积网络中,最大池化操作是不可逆的,但是我们可以通过在一组切换变量中记录每个池化区域内的最大值的位置来获得近似逆。在反卷积网络中,反池化操作使用这些切换将来自上层的重建放置到适当的位置,从而保留激活的结构。有关步骤的插图,请参见图1(底部)。

纠正:卷积网络使用relu的非线性,即纠正特征图,从而确保特征图始终为正。为了在每一层获得有效的特征重建(也应该是正的),我们通过relu非线性传递重建的信号。

滤波:卷积网络使用学习到的过滤器来卷积前一层的特征图。为了近似反转这一点,反卷积网络使用相同滤波器的转置版本(如其他自动编码器模型,例如RBM),但应用于纠正的映射图,而不是层下面的输出。实际上,这意味着垂直和水平翻转每个过滤器。

请注意,在此重建路径中,我们没有使用任何对比度归一化操作。从较高层向下投影使用在前进途中由卷积网络中的最大池化生成的切换设置。由于这些开关设置是给定输入图像所特有的,因此从单次激活获得的重建类似于原始输入图像的一小块,其结构根据它们对特征激活的贡献而加权。由于模型是有区别地训练的,因此它们隐含地表明输入图像的哪些部分是有区别的。请注意,这些预测不是来自模型的样本,因为不涉及生成过程。整个过程类似于反向支持单个强激活(而不是通常的梯度),即计算hXn,其中h是具有强激活的特征映射的元素,而Xn是输入图像。然而,它的不同之处在于(i)独立地施加relu,(ii)不使用对比度归一化操作。我们的方法的一个总体缺点是它只能显示单个激活,而不是图层中存在的整体的激活。然而,正如我们在图6中所示,这些可视化是输入模式的精确表示,其刺激模型中的给定特征图:当对应于模式的原始输入图像的部分被遮挡时,我们看到特征图中激活的明显下降。

3 训练细节

我们现在描述将在第4节中被可视化的大型卷积网络模型。图3中所示的架构类似于Krizhevsky[18]用于ImageNet分类的架构。一个区别是Krizhevsky3,4,5层使用的稀疏连接(由于模型分为2GPU)在我们的模型中被密集连接替换。另一个重要的不同是关于12层,其被用于图5中后面可视化的检查,如4.1部分所述。

该模型在ImageNet 2012训练集上进行了训练(130万张图像,分布在1000多个不同的类别中)[6]。每个RGB图像都经过预处理,方法是将最小尺寸调整为256,裁剪中心256×256区域,减去像素平均值(在所有图像上),然后得到10个不同的裁剪块,尺寸为224×224(原图像及水平翻转的四个角+中心)。使用具有128的小批量大小的随机梯度下降来更新参数,学习率10-2开始,结合动量项0.9。当验证错误达到平稳时,我们在整个训练过程中手动降低学习率。Dropout [14]用于全连接的层(67层),dropout比率为0.5。所有权重都初始化为10-2,偏差设置为0

在训练期间可视化第一层过滤器显示其中一些过滤器占主导地位。为了解决这个问题,我们将其RMS值超过固定半径10-1的卷积层中的每个滤波器重新归一化到该固定半径。这一点至关重要,特别是在模型的第一层,输入图像大致在[-128, 128]范围内。如在Krizhevsky[18],我们生成了多种不同的裁剪块和每个训练样例的翻转,以提高训练集的大小。我们在70epochs之后停止了训练,基于[18]的实现在一个GTX580 GPU上花了大约12天。

4 卷积网络可视化

使用第3节中描述的模型,我们现在使用反卷积网络可视化ImageNet验证集上的特征激活。

特征可视化:图2所示为训练完成后我们模型的特征可视化。对于给定的特征映射,我们显示前9个激活,每个激活分别投影到像素空间,揭示激发该映射并显示其对输入变形的不变性的不同结构。 除了这些可视化外,我们还会显示相应的图像补丁。 它们比可视化具有更大的变化,可视化仅关注每个补丁内的判别结构。 例如,在第5层,第1行,第2列中,补丁似乎没有什么共同之处,但可视化显示此特定要素图聚焦于背景中的草,而不是前景对象。

2.完全训练模型中的特征可视化。对于2-5层,我们在验证数据的特征映射的随机子集中显示前9个激活,使用我们的反卷积网络方法投影到像素空间。我们的重建不是来自模型的样本:它们是来自验证集的重建模式,其导致给定特征图中的高激活。对于每个特征图,我们还会显示相应的图像块。注意:(i)每个特征图内的强分组,(ii)较高层的较大不变性和(iii)图像的辨别部分的放大,例如,狗的眼睛和鼻子(第4层第1行第1列)。电子版观看效果最佳。由于30Mb的提交限制而使用了压缩算法,而不是重建算法本身。

每层的投影显示了网络中特征的分层特性。 2层响应角落和其他边缘/颜色连接。 3层具有更复杂的不变性,捕获相似的纹理(例如网格图案(第1行,第1列);文本(R2C4))。 4层显示出显着的变化,并且更具有特定类别:狗脸(R1C1; 鸟的腿(R4C2)。 5层显示具有显着姿势变化的整个对象,例如, 键盘(R1C11)和狗(R4)。

训练期间的特征演变:图4显示了在投射回像素空间的给定特征图内的最强激活(跨越所有训练示例)的训练期间的进展。 外观突然跳跃是由最强激活源自的图像变化引起的。 可以看到模型的较低层在几个时期内收敛。 然而,上层仅在相当多的时期(40-50)之后发展,证明需要让模型训练直到完全收敛。

4.1 框架选择

虽然训练模型的可视化可以深入了解其操作,但它也可以帮助您首选好的架构。通过可视化Krizhevsky等架构(图5a)和(c))的第一层和第二层,各种问题都很明显。第一层滤波器是极高和极低频信息的混合,几乎没有涵盖中频信息。另外,第二层可视化呈现出由第一层卷积中使用的大步幅4引起的混叠伪影。为了解决这些问题,我们(i)将第一层滤波器尺寸从11x11缩小到7x7,并且(ii)使卷积的步幅由4改为2。如图5b)和(d)所示,这种新架构在第1层和第2层特征中保留了更多信息。更重要的是,如第5.1节所示,它还提高了分类性能。

4.2 遮挡敏感度

使用图像分类方法,一个自然的问题是模型是否真正识别图像中对象的位置,或者只是使用周围的上下文信息。图6试图通过用灰色方块系统地遮挡输入图像的不同部分并观察分类器的输出,以此尝试解决这个问题。这些示例清楚地表明模型能够定位场景中的对象,尽管当对象被遮挡时正确类的概率会显着下降。图6还示出了来自顶部卷积层的最强特征图的可视化,以及该特征图中的激活(在空间位置上求和)作为遮挡物位置的函数。当遮挡物覆盖可视化中出现的图像区域时,我们会看到特征图中激活的明显下降。这表明可视化真实地对应于激活该特征图的图像结构,图4和图2所示为验证了其他可视化。

4.通过训练随机选择的模型特征子集的演变。每个图层的特征都显示在不同的块中。在每个块内,我们在epoch[1,2,5,10,20,30,40,64]随机选择特征子集。可视化显示给定特征图的最强激活(在所有训练示例中),使用我们的反卷积方法向下投影到像素空间。人工增强色彩对比度,最好以电子形式观看。

5.a):第一层特征没有特征尺度削减。请注意,一个特征占主导地位。(b):Krizhevsky[18]的第一层特征。(c):我们的第一层特征。较小的步长(2 vs 4)和卷积核尺寸(7x7 vs 11x11)导致更多特色和更少的特征。(d):Krizhevsky[18]的第二层特征的可视化。(e):我们的第二层特征的可视化。它们更干净,没有(d)中可见的混叠伪影。

6.三个测试示例,我们系统地用灰色方块(第1列)覆盖场景的不同部分,并查看顶部(第5层)特征如何映射((b)和(c))和分类器输出((d)&(e))如何变化。(b):对于灰度区域的每个位置,我们在一个第5层特征图(在未被遮挡的图像中具有最强响应的那个)中记录总激活。(c):向下投影到输入图像(黑色方块)中的此特征地图的可视化,以及来自其他图像的该地图的可视化。第一行示例显示了最强的特征是狗的脸。当掩盖它时,特征图中的激活降低((b)中的蓝色区域)。(d):正确类概率的映射,作为灰色方块位置的函数。例如。当狗的脸被遮挡时,“博美犬”的概率显着下降。(e):最可能的标签作为遮挡位置的函数。例如。在第1排,对于大多数位置,它是博美犬,但如果狗的脸被遮挡而不是球,那么它预测网球。在第二个示例中,汽车上的文本是第5层中最强的特征,但分类器对车轮最敏感。第3个示例包含多个对象。第5层中最强的特征是挑选出了面部,但是分类器对狗敏感((d)中的蓝色区域),因为它使用多个特征映射。

7. Caltech-256分类性能随着每个类别训练图像数量的变化而变化。使用每个类别仅用6个训练样例预训练的特征提取器,其结果超过Bo[3]的最佳报告结果。

5. 实验

5.1 ImageNet 2012

该数据集由1.3M/50k/100k训练/验证/测试样例组成,分布在1000个类别中。表1显示了我们在此数据集上的结果。

1. ImageNet 2012/2013分类错误率。*表示在ImageNet 20112012训练集上都经过训练的模型。

使用Krizhevsky[18]指出的确切架构,我们尝试在验证集上复现他们的结果。我们达到了他们在ImageNet 2012验证集上报告的0.1%的错误率。

接下来,我们分析了第4.1节(第1层中的7×7过滤器和第1层和第2层中的步长为2的卷积)中概述的改变框架的模型的性能。如图3所示,该模型明显优于Krizhevsky[18]的架构,击败了他们单一模型1.7%(测试top-5)的结果。当我们组合多个模型时,我们获得了14.8%的测试误差,提高了1.6%。这个结果接近于Howard [15]通过数据增强所产生的结果,这个架构可以很容易地与我们的架构相结合。然而,我们的模型比2013Imagenet分类竞赛的获胜的模型[28]短小。

3.我们8层卷积模型的架构。图像(具有3个颜色通道)224×224大小的裁剪作为输入。用96个不同的第一层滤波器(红色)对其进行卷积,每个滤波器的尺寸为7×7,步长为2。然后得到的特征图:(i)通过整流的线性函数(图中未显示),(ii)池化(在3×3区域内取最大值,步长为2)和(iii)在特征图上进行对比度标准化,得到96个不同的55×55个元素特征映射。在2,3,4,5层中重复类似的操作。最后两层为全连接,将顶部卷积层的特征以向量形式(6·6·256=9216维)作为其输入。最后一层是C个类别的softmax函数,C是类别的数量。所有卷积核和特征图都是方形的。

改变ImageNet模型尺寸:在表2中,我们首先通过调整图层的大小,或完全删除的方式探索了Krizhevsky[18]的架构。在每种情况下,修改架构后的模型都是从头开始训练。删除全连接层(6,7层)只会略微增加错误率(在下文中,指的是top-5验证错误率)。这是令人惊讶的,因为这两层包含大多数的模型参数。移除两个中间卷积层也会对错误率产生相对较小的差异。然而,同时去除中间卷积层和全连接层而产生仅具有4层的模型,其性能显著变差。这可能表明模型的整体深度对于获得良好的性能至关重要。之后,如图3所示,修改我们的模型。改变全连接层的大小对性能几乎没有影响(Krizhevsky[18]模型也是如此)。但是,增加中间卷积层的大小可以提高性能。但增加这些,将会同时增大全连接层,从而会导致过拟合。

2.Krizhevsky[18]模型和我们的模型(见图3)经过不同改变的模型在ImageNet 2012上的分类错误率

5.2 特征泛化

上面的实验表明了我们ImageNet模型的卷积部分在获得最先进性能方面的重要性。这由图2的可视化可以佐证,其显示了卷积层中学习到的复杂不变性。我们现在探索这些特征提取层泛化到其他数据集的能力,即Caltech-101 [9]Caltech-256 [11]PASCAL VOC 2012.为此,我们保持ImageNet训练的模型1-7层固定,并且在模型顶端使用新数据集的训练数据训练一个新的softmax分类器(类别数量)。由于softmax包含相对较少的参数,因此可以从相对少量的样例中快速训练,如某些数据集的情况。

实验将我们从ImageNet获得的特征表示与其他方法使用的手工制作的特征进行了比较。在我们的方法和现有方法中,Caltech/PASCAL训练数据仅用于训练分类器。由于这些方法具有相似的复杂性(我们的模型:softmax,其他模型:线性SVM),因此特征表示对性能至关重要。值得注意的是,两种表示都是使用CaltechPASCAL训练集之外的图像构建的。例如,HOG模型中的超参数是通过对行人数据集的系统实验来确定的[5]

我们还尝试了从头开始训练模型的第二种策略,即将1-7层重置为随机值,并与softmax一同在PASCAL / Caltech数据集的训练图像上进行训练。

一个复杂的问题是,一些Caltech数据集中的图像也存在于ImageNet训练数据中。使用归一化相关性,我们识别出这些重复图像2,并将它们从我们的Imagenet训练集中移除,然后重新训练我们的Imagenet模型,从而避免了训练/测试污染的可能性。

Caltech-101:我们按照[9]的步骤,使用5倍的训练/测试拆分,每个类别随机选择1530张图像进行训练,并且每个类别测试最多50张图像,表3报告了每类准确度平均值。30张图像/类别的训练需要17分钟。预训练模型通过2.2%的结果击败了来自[3]30图像/类别的最佳报告结果。我们的结果与最近公布的Donahue[7]86.1%的准确率(30图像/类别)结果一致。然而,从头开始训练的卷积网模型确实非常糟糕,只达到了46.5%,表明在如此小的数据集上训练大型卷积网络比较不可行。

3.我们的卷积网络模型与两种领先的类似方法在Caltech-101上的分类准确度比较

Caltech-256:我们按照[11]的步骤,每个类别选择15,30,4560张训练图像,表4报告了中每个类别准确度平均值。我们的ImageNet预训练模型远远胜过Bo[3]取得的目前最好的结果:60训练图像/类别准确率相比为74.2 vs 55.2%。然而,与Caltech-101一样,从头开始训练的模型也很差。在图7中,我们探索了一次性学习”[9]方式。使用我们的预训练的模型,只需要6Caltech-256训练图像就可以击败使用10倍之多图像的领先方法。这显示了ImageNet特征提取器的强大功能。

4. Caltech 256分类准确率

PASCAL 2012:我们使用标准的训练和验证图像在ImageNet预训练的卷积网络上训练20个类别的softmax。这并不理想,因为PASCAL图像可能包含多个对象,而我们的模型为每个图像只提供独一无二的预测结果。表5显示了测试集上的结果,并与领先方法进行相比:竞赛中的前2名和Oquab[21]的同期研究,其使用一个更合适分类器的卷积网络。PASCALImageNet图像在本质上是完全不同的,前者是完整的场景,而后者不是。这可以解释我们的平均性能比领先的竞赛者[27]结果低27%,但是我们确实在5分类的任务上击败它们,有时候是完胜。

5. PASCAL 2012分类结果,我们的Imagenet预训练卷积网络与领先的两种方法和Oquab[21]近期的方法进行比较

5.3特征分析

我们探讨了Imagenet预训练模型的每一层是如何区别特征的。我们通过改变从ImageNet模型重新训练的网络层数,并在顶部放置线性SVMsoftmax分类器来实现此目的。表6显示了在Caltech-101Caltech-256数据集上的结果。对于这两个数据集,当我们提升模型时可以看到效果稳定的改进,通过使用所有层获得最佳结果。这支持了这样一个前提:当特征层次结构变得更深时,它们会学习到越来越强大的特征。

6.我们ImageNet预训练卷积网络中每层特征映射中包含判别信息的分析。我们对卷积网络不同层(如括号中所示)的特征上训练线性SVMsoftmax分类器。较高层通常产生更多的辨别特征。

6讨论

我们以多种方式探索了这些通过图像分类训练到的大型卷积神经网络模型。首先,我们提出了一种可视化模型中激活的新方法。这表明这些特征并非随机,而是无法解释的模式。相反,当我们提升层次时,它们显示出许多直观上令人满意的属性,例如组合性,增加不变性和类别区分度。我们还展示了如何使用这些可视化来识别模型的问题,从而获得更好的结果,例如改进Krizhevsky[18]的令人印象深刻的ImageNet 2012结果。然后,我们通过一系列遮挡实验证明,该模型虽然经过分类训练,但对图像中的局部结构非常敏感,并且不仅仅使用广泛的场景环境。对该模型的消融研究表明,对网络而言,最小深度对模型的性能至关重要,而不是其它任何单个部分,。

最后,我们展示了ImageNet训练模型如何能够很好地泛化到其他数据集。对于Caltech-101Caltech-256,数据集足够相似,我们击败了报告的最佳结果,在后一个数据集上以显著的优势获胜。我们的卷积模型不太适用于PASCAL数据,可能是因为存在数据集偏差[25],尽管在没有对任务进行调整的情况下它仍然在最佳报告结果的3.2%之内。例如,如果使用允许每个图像有多个对象的不同损失函数,我们的性能可能会提高。这自然会使网络也能够解决对象检测问题。

致谢

作者们感谢Yann LeCun的富有帮助的讨论,感谢NSERCNSF1116923资助和微软研究院的支持。

参考文献

1. Bengio, Y., Lamblin, P., Popovici, D., Larochelle, H.: Greedy layer-wise training of deep networks. In: NIPS, pp. 153–160 (2007)

2. Berkes, P., Wiskott, L.: On the analysis and interpretation of inhomogeneous quadratic forms as receptive fields. Neural Computation (2006)

3. Bo, L., Ren, X., Fox, D.: Multipath sparse coding using hierarchical matching pursuit. In: CVPR (2013)

4. Ciresan, D.C., Meier, J., Schmidhuber, J.: Multi-column deep neural networks for image classification. In: CVPR (2012)

5. Dalal, N., Triggs, B.: Histograms of oriented gradients for pedestrian detection. In: CVPR (2005)

6. Deng, J., Dong, W., Socher, R., Li, L.J., Li, K., Fei-Fei, L.: ImageNet: A Large-Scale Hierarchical Image Database. In: CVPR 2009 (2009)

7. Donahue, J., Jia, Y., Vinyals, O., Hoffman, J., Zhang, N., Tzeng, E., Darrell, T.: DeCAF: A deep convolutional activation feature for generic visual recognition. arXiv:1310.1531 (2013)

8. Erhan, D., Bengio, Y., Courville, A., Vincent, P.: Visualizing higher-layer features of a deep network. Technical report, University of Montreal (2009)

9. Fei-fei, L., Fergus, R., Perona, P.: One-shot learning of object categories. IEEE Trans. PAMI (2006)

10. Girshick, R., Donahue, J., Darrell, T., Malik, J.: Rich feature hierarchies for accurate object detection and semantic segmentation. arXiv:1311.2524 (2014)

11. Griffin, G., Holub, A., Perona, P.: The caltech 256. Caltech Technical Report (2006)

12. Gunji, N., Higuchi, T., Yasumoto, K., Muraoka, H., Ushiku, Y., Harada, T., Kuniyoshi, Y.: Classification entry. Imagenet Competition (2012)

13. Hinton, G.E., Osindero, S., Teh, Y.: A fast learning algorithm for deep belief nets. Neural Computation 18, 1527–1554 (2006)

14. Hinton, G.E., Srivastave, N., Krizhevsky, A., Sutskever, I., Salakhutdinov, R.R.: Improving neural networks by preventing co-adaptation of feature detectors. In: arXiv:1207.0580 (2012)

15. Howard, A.G.: Some improvements on deep convolutional neural network based image classification. arXiv 1312.5402 (2013)

16. Jarrett, K., Kavukcuoglu, K., Ranzato, M., LeCun, Y.:What is the best multi-stage architecture for object recognition? In: ICCV (2009)

17. Jianchao, Y., Kai, Y., Yihong, G., Thomas, H.: Linear spatial pyramid matching using sparse coding for image classification. In: CVPR (2009) Visualizing and Understanding Convolutional Networks 833

18. Krizhevsky, A., Sutskever, I., Hinton, G.: Imagenet classification with deep convolutional neural networks. In: NIPS (2012)

19. Le, Q.V., Ngiam, J., Chen, Z., Chia, D., Koh, P., Ng, A.Y.: Tiled convolutional neural networks. In: NIPS (2010)

20. LeCun, Y., Boser, B., Denker, J.S., Henderson, D., Howard, R.E., Hubbard, W., Jackel, L.D.: Backpropagation applied to handwritten zip code recognition. Neural Comput. 1(4), 541–551 (1989)

21. Oquab, M., Bottou, L., Laptev, I., Sivic, J.: Learning and transferring mid-level image representations using convolutional neural networks. In: CVPR (2014)

22. Sande, K., Uijlings, J., Snoek, C., Smeulders, A.: Hybrid coding for selective search. In: PASCAL VOC Classification Challenge 2012 (2012)

23. Simonyan, K., Vedaldi, A., Zisserman, A.: Deep inside convolutional networks: Visualising image classification models and saliency maps. arXiv 1312.6034v1 (2013)

24. Sohn, K., Jung, D., Lee, H., Hero III, A.: Efficient learning of sparse, distributed, convolutional feature representations for object recognition. In: ICCV (2011)

25. Torralba, A., Efros, A.A.: Unbiased look at dataset bias. In: CVPR (2011)

26. Vincent, P., Larochelle, H., Bengio, Y., Manzagol, P.A.: Extracting and composing robust features with denoising autoencoders. In: ICML, pp. 1096–1103 (2008)

27. Yan, S., Dong, J., Chen, Q., Song, Z., Pan, Y., Xia, W., Huang, Z., Hua, Y., Shen, S.: Generalized hierarchical matching for sub-category aware object classification. In: PASCAL VOC Classification Challenge 2012 (2012)

28. Zeiler, M.: Clarifai (2013), http://www.image-net.org/challenges/LSVRC/2013/ results.php

29. Zeiler, M., Taylor, G., Fergus, R.: Adaptive deconvolutional networks for mid and high level feature learning. In: ICCV (2011)

理解卷积神经网络?看这篇论文就够了
weixin_33860737的博客
12-31 3958
南洋理工大学的综述论文《Recent Advances in Convolutional Neural Networks》对卷积神经网络的各个组件以及进展情况进行总结和解读,其中涉及到 CNN 中各种重要层的数学原理以及各种激活函数和损失函数。机器之心技术分析师对该论文进行了解读。论文地址:https://arxiv.org/abs/1512.07108引言近段时间来,深度 CNN 已经在多个深度...
可视化CNN】《Visualizing and Understanding Convolutional Networks》深入解析
Gerwels_JI的博客
12-04 1696
0 为什么选择这篇Paper? 2014年ECCV上的一篇经典文献:《Visualizing and Understanding Convolutional Networks》,可以说是可视化理解CNN领域的开山之作。 让炼丹师在调参或改动网络结构并提高最终的目标精度的时候,明白自己设计的CNN网络的每一层到底学习到了什么特征。 自2014年发表至今有2000多的引用量,学习这篇文章,可以很好的...
Visualizing and Understanding Convolutional Networks 译文(“看懂”卷积神经网络
07-12
Visualizing and Understanding Convolutional Networks 译文(“看懂”卷积神经网络
“看懂”卷积神经网(Visualizing and Understanding Convolutional Networks)
热门推荐
通往人工智能的崎岖之路
12-06 2万+
在所有深度网络中,卷积神经网和图像处理最为密切相关,卷积网在很多图片分类竞赛中都取得了很好的效果,但很多人都不了解卷积网取得良好成绩的原因。为此,卷积神经网的发明者Yann LeCun的得意门生Matthew Zeiler在2013年专门写了一篇论文,详细地分析了卷积网的结构,对训练样本如何影响卷积网产生特征的过程进行了阐述。下面是这篇文章的中文翻译.
ZFnet论文翻译及解读
David Lee的博客
03-02 1054
ZFnet论文翻译及解读
Visualizing and Understanding Convolutional Networks》翻译
ShaneneD的博客
04-12 1358
原文:https://arxiv.org/pdf/1311.2901.pdf摘要最近,大型卷积网络模型在ImageNet基准测试中表现出令人印象深刻的分类性能(Krizhevsky et al。,2012)。 然而,对于他们为什么表现如此出色以及他们如何改进他们没有清楚的认识。 在本文中,我们解决了这两个问题。 我们介绍了一种新颖的可视化技术,可以深入了解中间要素图层的功能以及分类器的操作。 用于...
Visualizing and Understanding Convolutional Networks笔记
01-06
Visualizing and Understanding Convolutional Networks笔记 论文原文 https://arxiv.org/abs/1311.2901 Pytorch实现 https://github.com/huybery/VisualizingCNN 神经网络有效的原因:1、大规模数据集 2、GPU提高...
Visualizing and Understanding Convolutional Networks.zip
03-16
"Visualizing and Understanding Convolutional Networks" 主题涉及到的核心是研究如何更好地理解和解释CNN的工作原理,这对于优化模型性能、提升模型可解释性以及解决黑箱问题至关重要。 卷积神经网络由多个层次...
Visualizing and Understanding Convolutional Networks.pdf
12-30
Visualizing and Understanding Convolutional Networks》这篇论文探讨了理解CNN性能背后的原因以及如何改进模型。作者提出了一种新颖的可视化技术,该技术能揭示中间特征层的功能以及分类器的工作原理。通过诊断...
Visualizing and Understanding Convolutional Networks
最新发布
05-25
### Visualizing and Understanding Convolutional Networks #### 概述 本文档主要介绍了Zeiler和Fergus在2013年发表的一篇关于卷积神经网络Convolutional Neural Networks, 简称ConvNets或CNNs)的重要研究工作...
卷积神经网络论文
05-10
卷积神经网络在目标识别,图像分类,图像切割等方面的应用
Understanding and Visualizing Convolutional Neural Networks
Do not mess it up
10-13 588
1. Visualize patches that maximally activate neurons 找到图片的区域能最大激活某个神经元 2. Visualize the weights 3. Visualize the representation space (e.g. with t-SNE) 取出某一层的output feature,用t-SNE
20170325#cs231n#10.Understanding and Visualizing Convolutional Neural Networks
LiuSpark
03-25 1789
Visualize patches that maximally activate neurons这个意思是是把数据输入某一层中,然后看数据的哪一部分最能激活这层的神经元Visualize the filters/kernels (raw weights) 但对高层的weight可视化的意义就不是特别大了Visualizing the representationt-SNE visualizati
【论文阅读报告】Visualizing and Understanding Convolutional Networks
weixin_43578660的博客
07-01 487
背景 众所周知,卷积神经网络在图像处理方面表现突出,但是在很多情况下,我们在调参数时只是依靠运气,并不知道自己对参数和网络结构的调整会影响神经网络的哪一部分。因此这篇文献的目的就是让我们通过一种可视化的方法来了解卷积神经网络如何工作,以及每一层的特征。 主要内容 介绍一种可视化技术,用于解释模型任何层上的特征 通过遮挡输入图像的某些部分来对分类器输出进行敏感性分析,以了解图片的那些部分为分类器提供了信息 1.可视化技术(反卷积)* 首先,作者使用了传统的CNN模型,在此基础上对进行研究。 作者利用反卷积
深度全解卷积神经网络(附论文)
weixin_40581617的博客
05-08 5886
第一章 引言 一、本文动机 过去几年,计算机视觉研究主要集中在卷积神经网络上(通常简称为 ConvNet 或 CNN),在大量诸如分类和回归任务上已经实现了目前为止最佳的表现。尽管这些方法的历史可以追溯到多年前,但相对而言,对这些方法的理论理解及对结果的解释还比较浅薄。 实际上,计算机视觉领域的很多成果都把 CNN 当作了一种黑箱,这种方式虽然有效的,但对结果的解释却是模糊
论文翻译Visualizing and Understanding Convolutional Networks
小C的博客
09-07 1653
论文翻译Visualizing and Understanding Convolutional Networks 【原文链接】https://arxiv.org/pdf/1311.2901.pdf 【翻译时间】2018.09.05        题目:可视化理解卷积网络     2. Approach     我们在整个论文中使用了标准的完全监督的ConvNet模型(Le...
卷积神经网络(Lecun的论文)
04-19 1万+
Lecun的cnn引起了我很大的兴趣,从今天开始看Lecun的论文,并把实践结果发布在这里。20100419 Generalization and Network Design Strategies 论文看完了,搞清楚了里面描述的5中网络结构.BP规则部分的推导,需要看其他的书。以前看的《神经网络设计》中文版中讲的很清楚,当时也看懂了。这两天看下。准备实现这5种网络。20100422
visualizing and understanding convolutional networks
03-16
卷积神经网络(Convolutional Neural Network, CNN)是一种用于图像识别和处理的深度学习模型。它通过不断地进行卷积操作和池化操作来提取图像的特征可视化CNN是理解它的工作原理和调整超参数的有效方法之一。常见的可视化方法有:网络结构可视化卷积可视化特征可视化、可解释性可视化等。
写文章

热门文章

  • mnist数据集下载——mnist数据集提供百度网盘下载地址 36385
  • PyTorch安装(CPU版本和CPU版本)——解决pip安装下载速度慢慢慢慢慢的问题 34246
  • windows7所有版本迅雷地址下载集合(含32位和64位) 25839
  • win10系统自动安装应用商店(Microsoft Store)方法步骤 20271
  • 手把手教会使用YOLOv5训练VOC2007数据集 19312

分类专栏

  • YOLOv5 3篇
  • PyTorch 2篇
  • 机器学习项目实战 1篇
  • 机器学习 10篇
  • 人工智能经典书籍
  • Hands On ML 14篇
  • 人工智能数据集 6篇
  • TensorFlow学习 18篇
  • OpenCV 4篇
  • 资源分享
  • 其它杂项 2篇
  • R语言
  • BioInformatics 5篇
  • Linux 4篇
  • python库报错解决方案 9篇
  • windows 2篇
  • 网络爬虫 2篇
  • 深度学习经典论文翻译 30篇
  • 深度学习 19篇
  • Python 14篇

最新评论

  • PyTorch安装(CPU版本和CPU版本)——解决pip安装下载速度慢慢慢慢慢的问题

    鸽于途: 谢谢答主!!

  • PyTorch安装(CPU版本和CPU版本)——解决pip安装下载速度慢慢慢慢慢的问题

    一江明月一江秋y: 只有这个答主的回答成功解决了问题,感谢 表情包

  • PyTorch安装(CPU版本和CPU版本)——解决pip安装下载速度慢慢慢慢慢的问题

    一江明月一江秋y: 所以这句话啥意思啊?不太理解啥叫 cpu版,gpu 版,我之前是突然在VScode上跑模型代码转到 CPU上运行了,以前一直都是在服务器上的GPU上跑的,怎么搞,都回不到服务器的GPU上运行,通过答主的方法解决了问题,去 Pytorch官网重新下载了一个旧版本的 pytorch,选择的pip安装,系统自动默认的就是清华镜像,下载完成后,问题解决了。模型又重新在gpu上开始运行了

  • PyTorch安装(CPU版本和CPU版本)——解决pip安装下载速度慢慢慢慢慢的问题

    uuu332: 这么安装的是cpu版,不是gpu版

  • 图像分类(Image Classification)经典框架论文翻译汇总

    空中的樟树: 很好的资源,研究生打基础很合适

大家在看

  • 蓝易云 - MyBatis框架如何处理字符串相等的判断条件。 82
  • 怎么选择专利? 115
  • 中序遍历二叉树全过程图解 456
  • 目标检测YOLO系列算法——YOLOv1-YOLOv9详细介绍
  • 计算机视觉:VGGNet网络详解

最新文章

  • pywinauto keyborad.send_keys raise RuntimeError(‘SendInput() inserted only ‘+str(num_inserted_events
  • Python打包程序pyinstaller使用详解
  • win10系统自动安装应用商店(Microsoft Store)方法步骤
2022年1篇
2021年2篇
2020年127篇
2019年17篇
2018年1篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

天下网标王网站一键优化工具宁波网站优化公司哪家好网站怎么样优化到排名靠前贺兰网站优化百度网站排名怎么优化如何优化网站好评云速捷专业装修公司网站优化刷网站优化首页软件网络营销企业网站优化的原则四川网站优化推广服务伊川网站优化公司深圳有效网站优化服务wap网站优化seo免加盟费的网站优化招商项目天津网站优化哪家好shopify优化网站成都网站推广优化网址化州网站优化费用汝州市网站seo优化排名360网站怎么优化常州网站搜索引擎优化博罗网站优化哪家便宜照明网站优化公司象山网站的优化方法武汉省心的销售行业网站优化江南都市花园百度网站优化安阳专业网站优化黄埔网站优化哪家好网站关键词优化推广费用网络营销企业网站优化的原则香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户315晚会后胖东来又人满为患了高校汽车撞人致3死16伤 司机系学生张家界的山上“长”满了韩国人?张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲“重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街 黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后 原水城县长再被查凯特王妃现身!外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒 投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长 师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年 金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人 多人受伤

天下网标王 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化