七库下载 手游攻略 手游攻略 卷积神经网络课程,卷积神经网络研究综述

卷积神经网络课程,卷积神经网络研究综述

时间:2024-03-29 23:43:10 来源:头条 浏览:0

卷积神经网络(CNN)近年来取得了巨大成功,但研究人员仍在进一步推动研究前沿并提出新的想法和技术。在本文中,技术分析师Joshua Chou 讨论了AAAI 2019 年关于卷积神经网络的三篇论文。第一篇文章提出了dropout改进技术,第二篇和第三篇文章是图卷积网络的研究。分析师简介:Joshua 于2018 年从多伦多大学获得了应用科学硕士学位(MASc)。他的研究重点是格码、低密度奇偶校验(LDPC)码以及编码理论的其他方面。他还对凸优化和随机过程感兴趣。 Joshua 目前在高通担任机器学习工程师,专注于推理优化。

引言本文介绍了AAAI 2019 的三篇精选论文。所有三篇论文都是著名的卷积神经网络的变体。第一篇论文“深度卷积神经网络正则化的加权通道丢失”利用简单的观察来提高CNN 的性能。第二篇论文“用于文本分类的图卷积网络”研究了CNN —— 图卷积神经网络(GCNN) 的扩展。 GCNN 直接在图上运行,并根据节点的邻居及其属性导出节点的嵌入向量。第三篇论文《Bayesian Graph Convolutional Neural Networks for Semi-supervised Classification》描述了贝叶斯框架下的GCNN。这意味着现实应用中使用的图表可能源自噪声数据和建模假设,因此本身包含不确定性。因此,第三篇论文通过将概率和统计引入GCNN 来解决这种不确定性。下面开始详细的讲解。

Weighted Channel Dropout for Regularization of Deep Convolutional Neural Networks 地址:http://home.ustc.edu.cn/~saihui/papers/aaai2019_weighted.pdf 简介卷积神经网络(CNN)近年来取得了长足的进步,许多网络性能得到显着提升改善了。各种应用程序。深度CNN的成功主要归功于多个非线性隐藏层的结构。该层包含数百万个参数,可以学习输入和输出之间的复杂关系。侯和王进行的这项工作受到以下观察的启发:在CNN 的一堆卷积层中,所有通道均由前一层生成,并由下一层同等对待。这就提出了这样的想法:这种“分散”可能不是最佳的,因为某些功能可能比其他功能更有用。对于可以跟踪特征的上(浅)层尤其如此。 Zhang et al. 2016 进一步证明,对于每个输入图像,只有上层的少量通道被激活,而其他通道的神经响应接近于零。由此,作者提出了一种根据激活的相对幅度来选择通道的方法。这进一步用作对通道之间的依赖关系进行建模的特殊方法。他们工作的主要贡献是为CNN 中的卷积层正则化而提出的加权通道丢失(WCD) 方法。

加权通道丢弃的基本思想和一些注释WCD背后的主要思想如下。

首先,对前一层输出的通道进行评估,并为每个通道分配一个分数。该分数是使用全局平均池化(GAP) 操作获得的。然后生成一个二元掩码来指示每个通道是否被选择,并且分数相对较高的通道更有可能被保留。最后,使用额外的随机数生成器来进一步过滤下一层的通道。您可以将其视为上述步骤中选择性dropout 之上的随机选择性dropout。相反,定期丢失以随机方式掩盖通道。下图1展示了传统dropout流程的示意图。

图1:Dropout 图还有其他一些值得一提的点。

由于WCD 与参数无关,因此可以在训练阶段将其添加到网络中,计算成本可以忽略不计。 WCD只能添加到训练阶段,因此对推理没有影响。方法如前所述,WCD 的目标是为CNN 的卷积层堆栈提供正则化。本文标记为: X=[x_1, x_2, x_N] 表示第I 层的输出,X^=[x^_1, x^_2, x^_N^] 表示我假设的下一层的输入那。 N和N^表示通道数,x_i和x^_i表示第i个通道。本文考虑以下场景:

进一步假设N^=N。步骤1:渠道评估在此步骤中,您将为每个渠道分配分数。这是使用GAP 完成的。对于每个通道i,可以使用公式(2)计算其得分。

其中W 和H 分别是所有通道共享的宽度和高度。步骤2:通道选择要确定是否选择通道,请创建二进制掩码。其中mask_i为1或0,分别表示通道i被选择或未选择。为了构造这个掩码,首先计算概率p_i 并将其分配给每个通道以确定mask_i。使用等式(3)计算保留信道p_i的概率。

由于P(mask_i=1)=p_i,我们得出结论,得分较高的通道更有可能被保存。可以看出,上述基于得分向量构建掩码向量的过程是加权随机选择(WRS)的一个特例。这一步是可以实现的。算法1显示了WRS算法。有关详细信息,请参阅Efraimidis 和Spirakis,2006 年。

对于每个具有score_i的通道x_i,生成0到1之间的随机数r_i以生成密钥值key_i。然后选择M个最大的key值,将对应的Mask_i设置为1。步骤3:随机数生成器此步骤可以被视为可选步骤,因为它适用于较小的数据集。这是为了处理以下情况:给定预训练模型的上层卷积层在通道之间的差异将比较深的卷积层更大。即只有少数通道被分配较大的激活值,而其他激活值较小。如果网络仅根据这些层的分数来选择通道,则为每个图像选择的通道序列可能在每次前向传递中都相同。因此,即使mask_i设置为1,添加随机数生成器也可能无法选择相应的x_i。

总体方法新提出的方法可以总结为图2 的形式。

图2:应用和评估加权通道丢失的示意图WCD 实验和设置理论上,WCD 可以插入到任何CNN 的任意两个连续层之间。作者建议使用WCD 作为正则化卷积层堆栈。作者进行了多项实验,将WCD 集成到VGGNet(Simonyan 和Zisserman 2014)、ResNet(He 等人,2016)和Inception(Szegedy 等人,2016)等知名网络中。所有模型均使用Caffe 在Titan-X GPU 上实现(Jia et al. 2014)。 WCD 在训练阶段添加到网络中,原始层保持不变。如前所述,作者在每个网络的上浅层之后部署了WCD,因为早期卷积层中的通道更容易识别和更好理解。实验中使用了以下数据集。

CUB-200-2011(Wah et al. 2011):广泛使用的细粒度数据集,收集200 种鸟类的图像。每个类大约有30 个训练图像。斯坦福汽车(Krause et al. 2013):专注于汽车分类(例如制造商、型号和年份)的数据集。Caltech-256:从Google 图像搜索下载样本并手动删除不相关的样本。目标类数据集的集合。与此类别匹配的图像。图3 显示了数据集中用作网络输入的一些示例图像。

图3 (a) CUB-200-2011、(b) 斯坦福汽车和(c) Caltech-256 的示例图像。

下面的结果显示了测试网络(VGGNet、ResNet 和Inception)的性能。此外,还包括基线性能(没有集成WCD)以进行比较。

我们可以看到,包含WCD 的模型始终优于基线。然而,这表明集成WCD 的网络的性能接近当前最先进的技术,例如RA-CNN(Fu、Zheng 和Mei 2017)和MA-CNN(Zheng 等人2017)。没有任何意义。 )。这是因为WCD 是一种非常流行的方法,可以在小数据集上微调CNN 时缓解过拟合问题,并且可以集成到这些现有模型中。 Caltech-256 数据集的结果如下所示。

前两行是大型测试集和WCD 的基线性能,最后两行是20 个图像的缩减测试集上的性能(与训练集不重叠)。使用WCD。我们可以看到WCD在Caltech-256上也表现良好,并且可以实现比基础模型更好的性能。

进一步讨论现在读者可能会问:除了额外的计算之外,使用WCD时还有哪些权衡?答案是WCD需要在收敛之前进行训练,这意味着(样本内)误差会更大。这意味着使用WCD 会导致收敛速度变慢。作者使用VGGNet-16 作为基础模型提供了CUB-200-2011 的结果。图4 显示了其性能。

图4:WCD 对网络训练的影响。这是使用VGGNet-16 作为CUB-200-2011 基础模型的结果。如图所示,使用WCD 时训练误差曲线下降得更慢。测试误差较低。实验结果支持了WCD 可以减少训练阶段过度学习的说法。

总结在本文中,作者提出了dropout 的修改版本作为CNN 正则化方法。他们提出的方法WCD 可以与一堆卷积层一起使用。它是一个轻量级组件,在训练阶段的计算成本可以忽略不计,并且可以集成到现有模型中。我对这篇论文感兴趣的是,它提出了一个非常简单的观察:较高(较浅)的卷积层通常更容易解释。另一个观察结果是,前一层生成的所有当前通道都在下一层中。他们受到平等对待。在某种程度上。作者利用这两个观察结果来获得更好的性能。随着深度学习的不断改进,更好的性能通常是通过实现更复杂的算法或使用更多的资源来挤出的。看到有人利用这些简单的观察结果以低廉的成本提高性能将会很有趣。这种改进在机械上可能并不困难,但需要一些运气和灵感才能想出来。所以我认为这是一个值得讨论的有趣话题。

用于文本分类的图卷积网络地址:https://arxiv.org/pdf/1809.05679.pdf 简介图神经网络/GNN 近年来变得越来越流行。一些作者总结了几种成熟的神经网络模型,例如用于处理结构化图的卷积神经网络(CNN)。 Kipf 和Welling 在2017 年提出了图卷积网络(GCN),并在多个基准图数据集上取得了当前最好的分类结果。换句话说,GCN 是一个直接在图上运行的多层神经网络,可以根据节点的邻居及其属性导出节点的嵌入向量。这是一个快速发展且有趣的网络模型,所以我的目标是帮助读者更好地理解如何使用GCN,并能够描述GCN 在文本分类中的一些应用。方法术语和符号方法GCN 本质上是在图上运行的CNN。首先,让我们看一些必要的符号和术语。

该图表示为G=(V,E)。这里,V和E分别是节点和边的集合。假设每个节点都与其自身相连。邻接矩阵A 定义为代表V 的|V| x |V| 方阵。 A 的元素表示图中的顶点对是否相邻。 (|V| 是节点数,下面用n 表示。)X 是维度R^(n x m) 的特征矩阵。其中n=|V| 是节点数,m 是特征数。 D 是阶矩阵。这是一个nn 对角矩阵,其元素D_ii 表示每个节点的度数。由于GCN 对这些信息进行操作,因此它自然可以使用一层卷积获得每个节点的直接邻居的信息。本文的重点不是GCN 的底层机制,而是如何构建要输入到GCN 中的适当输入。文本构建GCN 图现在我们进入本文档的核心部分。异构文本图包含单词节点和文档节点。节点之间的边可以分为两大类。文档中出现的单词是将单词节点连接到文档节点的边。 Word文档边缘的权重是Word文档的词频-逆文档频率(TF-IDF)。词频是指某个单词在文档中出现的次数,逆文档频率(IDF) 是指包含该单词的文档数量的对数倒数。计算TF-IDF 时需要记住一些事项。总结文本时最困难的部分是找到突出的标记。直觉上,您可能认为最常出现的标记是最重要的。然而,许多文档中最常见的单词通常不包含重要信息,例如the、to、with 和have(不仅仅是感兴趣的单词)。显着标记往往在多个不同文档中具有较低的数字,而在单个文档中具有较高的数字。 TF-IDF 分数可以使用以下公式计算:

这里,t代表一个单词,d代表单个文本,D是文本的集合。该表达式的理解如下。 它的第一部分tf(t, d) 用于计算每个单词在单个文本中出现的次数。公式第二部分的详细公式为:

上式中的分子D代表文本的集合,也可以写成D=d_1,d_2,d_n。其中n 是集合(语料库)中的文本数量。分母部分|{d D : t d} |表示单词t在文本d中出现了多少次(d D限制d属于文本集合D)。单词t 是否出现在特定文本中并不重要。不管单词t是否出现在特定的文本中,我们只是想统计单词t是否出现,不管单词t是否出现在特定的文本中,所以只记录一次。分母上加1,防止分母为0。单词共现是将一个单词节点连接到另一个单词节点的边。连接两个单词节点的边的权重是使用逐点互信息(PMI)计算的。 PMI度量与信息论中的互信息非常相似,有很好的直观理解。例如,在英语文本分类和与文本相关的语言处理中,通常需要搜索总是一起出现(共现)的简单短语或标记对。如果两个标记一起出现的次数多于“随机”,我们可以直观地相信它们是同时出现的。 PMI 是这种情况的数学表示。因此,语言模型可以将概率P(x_1, x_2, x_k) 分配给任何标记序列,更一般的序列具有更高的概率。例如,P(“Los Angeles”) 是“Los”和“Angeles”在英语中同时出现的概率。语言模型可以包含不同长度的序列。现在考虑一个可以读取“词袋”的一元模型(长度为1 的序列)。 P("Los") x P("Angeles") 成为“Los Angeles”(随机)出现的概率。一元模型。 PMI 可以使用以下公式计算:

正PMI 表示单词同时出现或一起出现,负PMI 表示单词不同时出现。在对GCN 构造图进行进一步解释后,将其输入到文本GCN 中,如Kipf 和Welling (2017) 中所述。我们提出的论文重点关注在文本GCN 中构建即用型图,而不是GCN 的工作原理。不过,我认为仍然需要对GCN 进行介绍,以便更好地理解本文的结果。让我们在这里暂停一下,进一步解释一下GCN 及其实际计算的内容。有关GCN 的更多信息,请参阅Kipf 和Welling 的另一篇论文:https://openreview.net/pdf id=SJU4ayYgl 图的近似卷积和逐层信息传播GCN 的核心可以写成以下方程:

式(3)。 GCN逐层传播规则。 l+1表示第l层之后的下一层。在l=0层,H矩阵是输入图矩阵G。 W 是权重,A 和D 分别是邻接矩阵和度矩阵。激活函数可以根据情况选择,例如ReLU函数。因此,每次信息移动到下一层时,网络都会通过等式(3)传递所有信息。下面的图2(摘自Kipf 和Welling 论文)说明了这一过程。

图2:用于半监督学习的多层图卷积网络(GCN) 示意图,在输出层中具有C 个输入通道和F 个特征图。如图2 所示,输入层由输入特征图的“堆栈”组成(请注意图中的堆栈)。有多少个特征就有多少个图,每个图都是另一个包含所有属性的矩阵。 GCN 的输出是一个特征图。下面的图3 是一个可视化GCN 的简单示例。

图3:GCN 结构的简单可视化图3 显示了一个简单的GCN,具有两个带有dropout 正则化和ReLU 激活函数的卷积层。输出位置是softmax分类器。现在我们对GCN 有了更清晰的了解,下面我们展示实验结果。在得出结果之前,我想简单分享一下我的想法。作者没有提到如何组织图的结构,即如何对邻接矩阵中的节点进行排序。我之所以提到这一点是因为节点可以代表文档、文本和单个单词。您可以很快看到不同的节点类型带来了额外的分析级别。然而,给定一个邻接矩阵A,如果我们构造一个具有不同节点顺序的新邻接矩阵A',则A 和A' 变得同构。因此,这使我们相信(3)中的输入图是旋转不变的(虽然作者没有提到这一点,但我相信情况确实如此)。其更新规则不考虑邻接矩阵。这是因为1)邻接矩阵与其他邻接矩阵同构,2)邻接矩阵通过度矩阵进行归一化,3)有一个参数可训练的权重矩阵W。直观上,我认为W 会“学习旋转输入图”并得到相同的结果。测试Text GCN 实验作者评估了Text GCN 执行文本分类的能力。作者用于比较的基线水平是基于当前最好的文本分类和嵌入方法,例如CNN、LSTM、Bi-LSTM、PV-DM、fastText、SWEM 以及具有多个过滤器的各种GCN。实验中使用的数据集是20-Newsgroups (20-NG)、Ohsumed 语料库、Reuters 21578 以及Movie Review (MR) R52 和R8。有关每个数据集的数据统计和详细说明,请参阅下面的表格和链接。

20NG - http://qwone.com/~jason/20Newsgroups/Ohsumed 语料库- http://disi.unitn.it/moschitti/corpora.htmR52 和R8 - https://www.cs.umb.edu/~smimarog/textmining/datasets/MR - http://www.cs.cornell .edu/people/pabo/movie-review-data/实验设置如下。第一个卷积层的嵌入大小为200,窗口大小为20。窗口大小用于计算TF-IDF。回想一下,词频是一个词在文档中出现的次数。使用窗口时,将根据窗口的大小分段读取文档。当某个单词出现在特定窗口中时,计数就会增加。学习率设置为0.02,dropout率设置为0.5,保留训练集的10%作为验证集。结果实验结果如下表所示。

我们发现Text GCN 在除一个数据集之外的所有数据集上的准确性都优于其他模型。虽然作者没有在文章中给出相应的解释,为什么Text GCN 的性能相比MR 数据集滞后,但我想我们可以从数据集的统计中一窥端倪。 MR文本的平均长度为:包含的信息太少会影响图网络的整体性能。此外,您还可以通过更改窗口大小来实现不同级别的性能。因此,窗口大小可以被认为是一个超参数,可以根据验证测试的结果进行调整。图4 显示了性能差异。

图4:不同窗口大小下的准确率,(a)R8数据集,(b)MR数据集实验结果表明,新提出的文本GCN取得了良好的文本分类结果。总结在本文中,作者提出了一种新的文本分类方法,即文本图卷积网络(Text GCN)。文本GCN可以获取全局单词共现信息,并使用有限的注释文档执行所需的任务。 Text GCN 在多个基准数据集上的性能优于多种最先进的方法。我们提出这篇论文是因为我们相信它将帮助读者理解日益流行的图卷积神经网络。卷积神经网络已经存在了一段时间,现在已经相当成熟,并且正在不断扩展和改进。我认为即使是很小的改进也值得注意。

Bayesian Graph Convolutional Neural Networks for Semi-Supervised Classification 地址:https://arxiv.org/pdf/1811.11103.pdf 简介我们提出的第三篇论文是基于图卷积神经网络(使用本文的表示方法,(这样写)GCNN )。正如之前的论文中所介绍的,GCNN 已用于解决节点和图分类问题,并取得了相当大的成功。然而,当前的实现将不确定性纳入图结构的能力有限。换句话说,虽然GCNN 理解图的节点和边,但它是对关系基本事实的描述,因此应用中使用的图本身通常是从噪声数据或建模假设中导出的,因此结果情节很高。当处理不确定性时,我们自然会想到概率。当我们想到概率时,我们就会想到贝叶斯定律。将贝叶斯框架集成到GCNN 中是本文的重点。本文重点关注某些随机图参数和节点标签的联合后验估计。作者提出了贝叶斯GCNN 框架并开发了迭代学习过程以得出最终图。方法符号和术语本文中的符号和术语与上一篇论文中的相同(尽管存在一些差异),所以我在这里简单介绍一下。我们观察到的图是G_obs=(V, E),由N 个节点的集合V 和边的集合E 组成。每个节点i 都有一些关联的度量数据(或派生特征),用x_i 表示。节点的某些子集L V 具有度量标签Y_L={y_i : i L}。在分类任务中,标签y_i 可以表示类别,在回归任务中,y_i 可以是实值。本文任务的目标是使用特征x 和观察到的图结构G_obs 来估计未标记节点的标签。 GCNN 通过在神经网络架构中执行图卷积运算来完成此任务。收集到的特征向量作为矩阵X 的行,即GCNN 的层。在每个卷积层中,前向传播根据方程(1)和(2)定义。

等式(1)和(2)。 GCNN 的逐层传播规则。方程(1)和(2)与上一篇论文中的方程相同,但有一处不同。 —— 没有与A_G 相乘的阶矩阵。然而,解释仍然是一样的。 L层网络最后一层的输出用Z=H^(L)表示。神经网络权重的训练是通过反向传播来执行的,目的是最小化观察到的标签Y 和网络预测Z 之间的误差度量。考虑以下设置:

训练输入X={x_1, x_2, 权重,其中权重以贝叶斯方式建模为随机变量,并基于它们进行先验分布。这些权重是随机变量,因此输出f(x) 也是随机变量。在此框架中,新输入x 的输出可以被视为给定x、X、Y 和W 后验分布的积分。这可以表示为下面的等式(3)。

项p(y|x, W) 可以被认为是可能性,并且在分类任务中,可以通过将softmax 函数应用于神经网络的输出,使用类分布来对该项进行建模。这里,后验计算表示为等式(5) 等式(5)的目的是计算节点标签的后验概率。

这里,W是表示图G上贝叶斯GCNN的权重的随机变量,并且表示表征一组随机图的参数。在下一节中,我们将了解贝叶斯GCNN 如何执行半监督节点分类任务。实验结果实验设置和数据集接下来,我们使用贝叶斯框架进行半监督节点分类来研究GCNN 的性能。本实验测试贝叶斯GCNN 预测未知文档标签的能力。这与上面提到的论文《Graph Convolutional Networks for Text Classification》中描述的文本分类类似。使用的数据集包括引文数据集,例如Cora、CiteSeer 和Pubmed(Sen、Namata 等2008)。在这些数据集中,每个节点代表一个文档

,并且有与其相关的稀疏词袋特征向量。每当一个文档引用另一个文档时,就会形成边。忽略引用的方向,并构建一个带有一个对称邻接矩阵的无向图。表 1 给出了这些数据集的统计情况。 表 1:实验中使用的数据集的总结概括作者将他们的工作与最早的 GCNN(Kipf and Welling 2017)ChebyNet(Defferrard, Bresson, and Vandergheynst 2016)和图注意网络(GAT)(Velickovic et al. 2018)进行了比较。此外,其超参数设置和 Kipf and Welling 的 GCNN 一样。具体来说,这个 GCNN 有两层,其中隐藏单元数为 16,学习率为 0.01,L2 正则化参数为 0.0005,dropout 率为每层 50%。除了之前的研究(Kipf and Welling 2017)探索过的每类别 20 个标签的训练设置之外,作者还在限制更严格的数据场景(每类别仅有 10 或 5 个标签可用)中测试了这些算法的表现。将数据集划分为训练集和测试集的方式有两种,第一种是源自(Yang, Cohen, and Salakhutdinov 2016)的固定式数据分割。第二种划分类型是随机的,其中每一轮的训练集和测试集都是随机创建的。这能为模型表现提供更为稳健的比较,因为特定的数据划分方式会在训练标签有限的情况中产生显著的影响。结果下列表 2、3、4 展示了实验的结果。 表 2:在 Cora 数据集上的预测准确度(预测正确的标签所占百分比) 表 3:在 Citeseer 数据集上的预测准确度 表 4:在 Pubmed 数据集上的预测准确度可以看到,GCNN 几乎在所有实验中都优于其它网络。值得注意的是,当不确定性较高时(即标签的数量较少时),更是如此。这一点非常直观,因为当数据和标签更少时,贝叶斯 GCNN 在计算没有标签的节点的最大后验(MAP)估计以及选择最优近似上有优势。另一方面,其它设置依赖「基本真值」标签提供有关节点和标签的信息,在没有标签时不会提供任何信息。当然,计算节点的潜在标签的概率需要额外的计算成本,也就是说,对于有 L 个标签的每个不确定的节点,网络必须计算出每个标签的 L 个概率以决定每个不确定节点应该与哪个标签关联。但是,可以预见,随着给定标签数量的增长(图中「基本真值」更多),其它框架将开始优于贝叶斯 GCNN。此外,随着给定标签数量的增长,贝叶斯 GCNN 不仅会失去优势,而且由于计算缺失的标签的概率需要额外的计算成本,还会具有较大的劣势。可以看到,另一个影响结果的因素是图复杂度(graph complexity)。在 Pubmed 数据集上尤其如此。在使用 Pubmed 数据集时,原始的 GCNN 显著优于贝叶斯 GCNN。Pubmed 数据集比 Cora 和 CiteSeer 数据集大很多,这会得到更加复杂的图。我相信这是由于以下直观原因。边的数量比节点数量多很多的图是「连接很紧密的」的图。在「基本真值」设定中,具有标签的节点意味着给定的节点-标签关系是绝对确定的。因为边的数量远多于节点的数量,所以每个节点的绝对信息都会被传播给网络中的更多节点,从而得到「信息更丰富」的图。我认为这就是贝叶斯 GCNN 在这种情况下优势不再的原因。总结在这篇论文中,作者提出了贝叶斯图卷积神经网络,提供了一种通过参数随机图模型整合不确定图信息的方法。随着 GCNN 的继续普及,我认为值得研究 GCNN 的潜在改进空间。这篇论文本质上是通过引入概率来度量不确定性,添加了一个非常自然的层来求解涉及不确定性的问题。结语我选择评阅的这三篇 AAAI 2019 论文全都与卷积神经网络这一主题有关。卷积神经网络近年来已经取得了非常大的成功,并且已经发展出了取决于当前任务的复杂配置。我会简单总结一下我在阅读这些论文时想到的要点。一般来说,我会谈到当前的状态,什么信息是可用的,我们可以利用这个额外信息吗,我们要怎么做以及已经做了什么?Weighted Channel Dropout for Regularization of Deep Convolutional Neural Network dropout 是一种神经网络中使用的常用的正则化技术。其中被丢弃的权重是完全由随机选择选出的。在更高层(浅层),特征仍然是可追踪的,可以被解释。特定的特征比其它特征更有用,这能推出以下断言:我们可以引入一个度量来量化特征的重要性以及影响 dropout 选择。上述要点就引出了这篇论文的主要贡献。其作者提出了一种量化特征的重要性的方法,并且表明通过利用这一信息并将其整合进 dropout 中,卷积神经网络的表现可以得到提升。Graph Convolutional Networks for Text Classification Kipf 和 Welling 引入了图卷积网络,能高性能地解决分类问题。GCN 是一种直接操作图的多层神经网络,并能基于近邻节点和它们的属性推导节点的嵌入向量。要得到有效的 GCN,输入图必须要好。这就涉及到这篇论文的贡献了。作者提出了一种基于文档中词出现和词共现来构建图的方法;并将该图用作 GCN 的输入。文档中的词出现会影响连接词节点和文档节点的边的构建。词-文档边的权重是这组词-文档的词频-逆文档频率(TF-IDF)。词共现会影响连接一个词节点与另一个词节点的边的构建。连接两个词节点的边的权重使用逐点互信息(PMI)计算。结果表明,通过使用一层卷积获取有关每个节点的直接近邻的信息,GCN 在分类问题有应用的潜力。这个信息编码在构造的图中。Bayesian Graph Convolutional Neural Networks for Semi-supervised Classification 这篇论文同样研究的是图卷积神经网络(GCNN),但额外考虑了有时候现实生活中使用的图源自有噪声的数据或建模假设,这意味着这些图是「不确定的」。为了建模不确定性,我们自然会想到概率和统计,这也导向了这篇论文的主要重点。这篇论文将贝叶斯框架引入了 GCNN 来解决不确定性问题。通常而言,GCNN 是使用基本真值信息或完全不使用信息构建的,而贝叶斯 GCNN 则会计算有关图的不完整或缺失信息的后验概率,并将其用作可靠的信息。在多项实验中的结果表明贝叶斯 GCNN 优于其它网络。这是因为贝叶斯 GCNN 在计算没有标签的节点的最大后验(MAP)估计以及选择最优近似来构建输入图上有优势。当存在大量无标签节点时(缺失或不完整信息),这样的优势最为显著。可以推断出,「不确定节点」的数量和图复杂度对贝叶斯 GCNN 的表现有贡献。在某些情况中,原始 GCNN 优于贝叶斯 GCNN。此外,这个框架的表现水平和计算成本之间存在权衡,在使用贝叶斯 GCNN 时需要考虑到这一点。希望我讨论这三篇论文的思路是清晰的。我选择关注 GCNN 的原因之一是我们可以看到深度学习和传统分析技术(这里是基于图的分析和概率分析)之间的隔离情况正在逐渐消失。这将为不同的领域带来进一步的合作,并有望在未来创造更激动人心的成果。
标题:卷积神经网络课程,卷积神经网络研究综述
链接:https://www.7kxz.com/news/gl/18505.html
版权:文章转载自网络,如有侵权,请联系删除!
资讯推荐
更多
天地劫幽城再临归真4-5攻略:第四章归真4-5八回合图文通关教学

天地劫幽城再临归真4-5攻略:第四章归真4-5八回合图文通关教学[多图],天地劫幽城再临归真4-5怎么样八回合内通

2024-03-29
航海王热血航线艾尼路怎么玩?艾尼路加点连招攻略大全

航海王热血航线艾尼路怎么玩?艾尼路加点连招攻略大全[多图],航海王热血航线艾尼路怎么加点?艾尼路怎么连招?关

2024-03-29
坎公骑冠剑国际服怎么玩?国际服新手攻略

坎公骑冠剑国际服怎么玩?国际服新手攻略[多图],坎公骑冠剑国际服的玩法是什么样的?关于游戏中的一些新手玩法

2024-03-29
王者荣耀鸿运6+1地狱之眼怎么抽?鸿运抽奖地狱之眼概率获取攻略

王者荣耀鸿运6+1地狱之眼怎么抽?鸿运抽奖地狱之眼概率获取攻略[多图],王者荣耀鸿运抽奖活动的奖池中还有传说

2024-03-29