计算机视觉 21 Image Segmentation

Created2025-02-14|Updated2025-02-14|课程笔记计算机视觉

|Post Views:

Computer Vision Tasks: Semantic Segmentation

语义分割(semantic segmentation)：每个像素分配一个标签
物体检测(object detection)：每个物体分配一个包围盒，再给每个包围盒赋予一个标签
实例分割(instance segmentation)：物体检测+语义分割

Semantic Segmentation

使用类别标签标记图像中的每个像素，输入：照片；输出：语义
不能区别示例，只能给像素标签分类

Semantic Segmentation: Sliding Window

滑动窗口：把窗口中图像块的语义作为中心像素的语义。循环中心像素，为每个像素分类标签

缺点不高效，应该使用共享计算，复用计算

FCN

Make a CNN Fully Convolutional

FCN是全连接的CNN
FC(MLP)可以作为特殊的卷积层，可以视为一个大卷积核的卷积层

最后上采样，形成大的feature map

中间的卷积层权重共享，从而更为高效
问题：上采样32倍过大，细节丢失严重

Skip Connections

将高分辨率的feature map拼到低分辨率上采样的feature map中，提供精细的位置信息

Upsampling

Upsampling with Interpolation

常见的上采样插值方法有最近邻插值和线性插值

Upsampling with Unpooling

max pooling要存放下标表示最大值的位置
Max Unpooling:max放到对应位置，相当于max pooling的backward

Upsampling with Deconvolution

卷积的逆过程，将1x1像素放大成3x3后，将重叠部分相加而成
边界需要手动进行删除

Semantic Segmentation with U-Net

U-Net中下采样和上采样是完全对称的

U-Net适合处理图像输入输出问题：深度图，图像上色，估计光流

Transformers for Semantic Segmentation

如果encoder足够强大可以不用跳跃连接(skip connection)
缺点：训练集需要比较大

计算机视觉

Related Articles

计算机视觉 03 Image Processing

计算机视觉 02 Image Formation

计算机视觉 04 Feature Detection

计算机视觉 05 Image Stitching

计算机视觉 06 3D Vision and Camera Calibration

计算机视觉 08 Two-View Stereo