卷积的可视化学习-白红宇

卷积的可视化学习

阅读量：726 次

发布时间：2019-03-21

本文共 998 字，大约阅读时间需要 3 分钟。

卷积（Convolution）的理解

卷积是一种数学操作，常用于信号处理领域，特别是在图像处理和深度学习中。它的基本原理源自泛函分析中的卷积积。这个概念最初在图像处理中得到了广泛应用，因此卷积神经网络（CNN）在计算机视觉领域取得了显著成果。卷积操作可定义为：输入信号X [M, N]与激活响应（核）h [m, n]进行卷积运算，得到输出信号Y [M, N]，数学表达式为Y [m, n] = ∑x [i, j] * h [i + m - 1, j + n - 1]，其中i和j分别遍历所有可能的图像位置。

在实际图像处理中，激活响应核通常是3×3的矩阵，其中心对应于原点（0,0）。此外，图像的非零值位置通常是从左上角开始编号，横坐标从0到M-1，纵坐标从0到N-1。在这种情况下，卷积运算中的i和j被改写为mi和nj，分别表示图像的宽度和高度。

除了常规卷积，还有有效卷积和满卷积两种主要类型。有效卷积会丢弃边缘数据，减少计算量；而满卷积则保留整个图像数据，便于处理边缘信息。

最近，Google Brain团队提出了一个名为NASNet（Neural Architecture SearchNet）的方法，通过强化学习来设计神经网络架构。这种方法允许网络自动搜索最优结构，在CNN和RNN方面都进行了探索。

尽管如此，NAS方法在实际应用中仍存在一些挑战。首先，搜索空间庞大，计算需求高，尤其是在使用800块GPU的情况下。其次，设计的网络结构可能不够用户友好，尤其是在移动端应用时。此外，直接应用NAS框架进行Imagenet训练并不可行。

针对这些问题，研究者提出了三个改进措施：

利用卷积模块堆叠构建大型网络，这与传统的CNN设计思路一致。

优化搜索空间，确保块操作对输入尺寸无要求，从CIFAR的32x32尺寸扩展到更大尺寸。

固定块的拓扑结构，减少对初始搜索空间的依赖。这些改进使NAS框架更可行，且研究报告提出的网络设计显得更具人性化。

此外，硬件计算成本与空间、时间复杂度密切相关，这也是研究NASNet的重要原因。通过这种方式，研究者可以更好地理解和优化网络架构设计。在阅读这篇论文之前，可以先熟悉一些基本概念，提升对神经网络和计算机视觉领域的整体理解。

](https://blog.csdn.net/hduxiejun/article/details/70815620)

你可能感兴趣的文章