《动手学深度学习 Pytorch版》 6.3 填充和步幅

6.3.1 填充

虽然我们用的卷积核较小，每次只会丢失几像素，但是如果应用多层连续的卷积层，累积的像素丢失就会很多。解决此问题的方法为填充。

填充后的输出形状将为 $(n_h-k_h+p_h+1)\times(n_w-k_w+p_w+1)$

import torch
from torch import nn

def comp_conv2d(conv2d, X):
    X = X.reshape((1, 1) + X.shape)  # 批量大小和通道数都是1（此处为元组拼接）
    Y = conv2d(X)
    return Y.reshape(Y.shape[2:])  # 再忽略前两个维度

conv2d = nn.Conv2d(1, 1, kernel_size=3, padding=1)
X = torch.rand(size=(8, 8))
comp_conv2d(conv2d, X).shape  # 如果无填充则是 (6,6)

torch.Size([8, 8])

conv2d = nn.Conv2d(1, 1, kernel_size=(5, 3), padding=(2, 1))  # 也可以填充不同的高度和宽度
comp_conv2d(conv2d, X).shape  # 若不填充则为 (4, 6)

torch.Size([8, 8])

6.3.2 步幅

conv2d = nn.Conv2d(1, 1, kernel_size=3, padding=1, stride=2)  # 步幅为2则宽度高度减半
comp_conv2d(conv2d, X).shape

torch.Size([4, 4])

引入步幅后输出的形状应为 $\left\lfloor(n_h-k_h+p_h+s_h)/s_h\right\rfloor\times\left\lfloor(n_w-k_w+p_w+s_w)/s_w\right\rfloor$

conv2d = nn.Conv2d(1, 1, kernel_size=(3, 5), padding=(0, 1), stride=(3, 4))  # 实际实践中很少使用不一致的步幅或填充
comp_conv2d(conv2d, X).shape

torch.Size([2, 2])

练习

（1）对于本节中的最后一个示例，计算其输出形状，以查看它是否于实验结果一致。

$\begin{align} \left(高度\times宽度\right)&=\left\lfloor(n_h-k_h+p_h+s_h)/s_h\right\rfloor\times\left\lfloor(n_w-k_w+p_w+s_w)/s_w\right\rfloor\\ &= \left\lfloor(8-3+0+3)/3\right\rfloor\times\left\lfloor(8-5+1+4)/4\right\rfloor\\ &= \left\lfloor8/3\right\rfloor\times\left\lfloor8/4\right\rfloor\\ &= (2\times2) \end{align}$

（2）对本节中的实验中，试一试其他填充和步幅的组合。

略

（3）对于音频信号，步幅为2说明什么？

类似于计组里学的对信号进行采样。

（4）步幅大于1的计算优势是什么？

减少计算量。文章来源地址https://uudwc.com/A/201L6