An Embedding-Unleashing Video Polyp Segmentation Framework via Region Linking and Scale Alignment (AAAI2024)
2024 0502
public
video presentation fzx underline
《通过区域链接和尺度对齐的嵌入式视频息肉分割框架》。
结直肠癌是癌症相关死亡的主要原因。留意可能发展为结直肠癌的息肉是重要的预防措施。然而,依赖人工筛查有其局限性。这就是为什么需要精确、自动化和实时的筛查方法的原因。 然而,正如 图 A 到 Z 所示,背景和息肉之间的低对比度使得目标边界难以区分。此外,如图 D 到 F 所示,息肉的剧烈变化使得它们的运动状态难以被追踪。因此,视频息肉分割任务需要解决上述两个挑战。
在本文中,我们提出了一个新的嵌入式视频息肉分割框架。在该框架中,我们引入了一个现有的视频分割网络来生成掩码提议(mask proposals)。然后,我们设计一个外观嵌入网络来获得外观级别(appearance level)的语义嵌入,最后利用掩码提议和语义嵌入之间的交互来获得分割结果。外观嵌入网络由一个区域链接模块和一个缩放对齐模块组成,下面我将做进一步介绍。
首先,我们引入嵌入关系视角(embedding relation perspective)来帮助理解。我们引入了一个现有的视频分割网络作为提议生成网络来提供掩码提议。此外,我们设计了一个由区域链接模块和尺度对齐模块组成,用来获取外观级别嵌入语义视频息肉分割挑战的外观嵌入网络。最后,我们通过掩码提议和外观级别嵌入语义之间的交互获得分割结果。
为了解决背景和息肉之间低对比度的干扰,我们放弃了像素级建模方法,而是在外观级别的区域链接模型中描述语义信息。具体来说,我们首先使用卷积来建立区域语义,然后线性连接这些区域信息来描述外观级别的语义,从而识别息肉中的具体信息。
为了减轻大幅帧间变化(frame-to-frame variations)的影响,我们提出了一个交叉尺度对齐模块,以充分考虑时间一致性。具体来说,对于长期时间一致性,我们引入了交叉注意力层和记忆模块,以考虑当前片段与历史片段之间的对齐关系。对于短期时间一致性,我们引入了自注意力层,以考虑当前片段内的帧间对齐关系。通过这种方式,交叉对齐方法可以充分考虑时间信息,以应对视频息肉分割任务中的大幅帧间变化。
最后,为了获得分割掩码,我们利用矩阵乘法和维度求和来完成 PGN 和 AEN 之间的交互。我们进行了广泛的消融研究和在两个公开数据集 SUN-SEG 和 CVC 612 上进行的对比实验。对于评估指标,我们使用结构度量、Dice 系数和 max IU 来量化我们的方法。对于损失函数,我们使用 BCE 损失和 Dice 损失的组合。
在消融研究中,我们的 CRL 和 CSA 模块可以极大地提升性能。分割掩码的直观比较清楚地证明了我们模块的有效性。我们还将我们的方法与其他最先进的方法进行了比较,我们的方法在两个数据集的所有指标上都优于其他竞争对手,获得了最高的性能。此外,我们还比较了我们方法和其他最先进方法的效率和性能。我们的方法以较小的开销实现了性能和效率的权衡。
下图是对分割结果的直观比较。如您所见,对于低对比度和帧间剧烈变化的情况,我们的结果仍然最接近真实情况(ground truth)。
总之,我们提出了一个用于视频息肉分割的嵌入式框架。我们的 CRL 和 CSA 模块不仅消除了背景和息肉之间的低对比度干扰,而且还解决了剧烈的帧间变化问题。广泛的研究表明,我们的模块显著提高了现有方法的性能。