CV | AmeBob

问题：它的输入是什么？它的输出是什么？它是怎么得到这个输出的？它的效果怎样么？ UNet OutPut 输出：一个与原图大小相同的多通道图，通道数对应分类数，每个通道图像的像素点都有一个概率，表示当前像素点预测为此类的概率但是记住，原论文中的输入大小为572 * 572 * 1 ，输出为 338 * 338 * 2，为何这样呢？源于作者，没有做0填充（现代做法是执行卷积前0填充），而是镜像填充，再具体一点，就是将大图划分为patch时，如果 $572 \times 572$ 的输入方框跨越原图边界，就进行镜像填充。寻找代码中实际的处理镜像填充（不常用）：如果你需要填充一个像素：零填充：| 0 | 5 | 8 | 1 | 4 | 镜像填充：| 8 | 5 | 8 | 1 | 4 |（它将 5 旁边的 8 复制到了 5 的左边，就像 5 是一面镜子反射了 8 一样。）下面是现代填充和原文填充对比原始 U-Net 做法准备数据（Pre-processing）：读取超大图 ($5000 \times 5000$)。确定要切的一个 Patch 位置。判断位置是否在边缘。如果是边缘 $\rightarrow$ 执行镜像填充算法（Mirror Padding）生成扩充数据。 $\leftarrow$ (就是这里！) ...