本文共 998 字,大约阅读时间需要 3 分钟。
卷积(Convolution)的理解
卷积是一种数学操作,常用于信号处理领域,特别是在图像处理和深度学习中。它的基本原理源自泛函分析中的卷积积。这个概念最初在图像处理中得到了广泛应用,因此卷积神经网络(CNN)在计算机视觉领域取得了显著成果。卷积操作可定义为:输入信号X [M, N]与激活响应(核)h [m, n]进行卷积运算,得到输出信号Y [M, N],数学表达式为Y [m, n] = ∑x [i, j] * h [i + m - 1, j + n - 1],其中i和j分别遍历所有可能的图像位置。
在实际图像处理中,激活响应核通常是3×3的矩阵,其中心对应于原点(0,0)。此外,图像的非零值位置通常是从左上角开始编号,横坐标从0到M-1,纵坐标从0到N-1。在这种情况下,卷积运算中的i和j被改写为mi和nj,分别表示图像的宽度和高度。
除了常规卷积,还有有效卷积和满卷积两种主要类型。有效卷积会丢弃边缘数据,减少计算量;而满卷积则保留整个图像数据,便于处理边缘信息。
最近,Google Brain团队提出了一个名为NASNet(Neural Architecture SearchNet)的方法,通过强化学习来设计神经网络架构。这种方法允许网络自动搜索最优结构,在CNN和RNN方面都进行了探索。
尽管如此,NAS方法在实际应用中仍存在一些挑战。首先,搜索空间庞大,计算需求高,尤其是在使用800块GPU的情况下。其次,设计的网络结构可能不够用户友好,尤其是在移动端应用时。此外,直接应用NAS框架进行Imagenet训练并不可行。
针对这些问题,研究者提出了三个改进措施:
此外,硬件计算成本与空间、时间复杂度密切相关,这也是研究NASNet的重要原因。通过这种方式,研究者可以更好地理解和优化网络架构设计。在阅读这篇论文之前,可以先熟悉一些基本概念,提升对神经网络和计算机视觉领域的整体理解。
](https://blog.csdn.net/hduxiejun/article/details/70815620)