96SEO 2026-02-19 17:44 11
。

本文旨在解决基于边界框标注的语义分割问题#xff0c;即使用边界框注释作为监督来训练准确的语义分割模型。
为此#xff0c;我们提出了亲和力注意力图神经网络#xff08;A2GNN#xff09;。
按照先前的做法即使用边界框注释作为监督来训练准确的语义分割模型。
为此我们提出了亲和力注意力图神经网络A2GNN。
按照先前的做法我们首先生成伪语义感知的种子然后基于我们新提出的亲和力卷积神经网络CNN将其形成语义图。
然后构建的图被输入到我们的A2GNN中其中一个亲和力注意力层被设计用来从软图边缘获取短距离和长距离信息以准确地将语义标签从可信的种子传播到未标记的像素。
然而为了确保种子的准确性我们只采用有限数量的可信像素种子标签用于A2GNN这可能导致训练的监督不足。
为了缓解这个问题我们进一步引入了一个新的损失函数和一种一致性检查机制以利用边界框约束从而可以为模型优化提供更可靠的引导。
实验证明我们的方法在Pascal
75.2%。
更重要的是我们的方法可以轻松应用于基于边界框的实例分割任务或其他弱监督语义分割任务在PASCAL
VOC或COCO数据集上具有最先进或可比较的性能。
我们的源代码将在https://github.com/zbf1991/A2GNN上公开。
弱监督语义分割旨在使用弱标注作为监督来进行像素级语义预测。
根据提供的注释级别弱监督可以分为涂抹级别[1][2][3]边界框级别[4][5][6][7]点级别[8]和图像级别[9][10][11][12]。
在本文中我们主要关注基于边界框监督的语义分割BSSS。
BSSS的关键挑战在于如何准确地估计给定边界框内的伪对象掩码以便可以使用当前流行的全卷积网络FCN[13][14][15][16]通过生成的伪掩码来学习可靠的分割网络。
先前的BSSS任务中大多数方法[4][5][6][17]使用对象提议[18][19]提供一些种子标签作为监督。
这些方法遵循一个常见的流程即使用对象提议[18][19]和CRF
[20]生成伪掩码然后将其作为真实标签用于训练分割网络。
然而由于分割掩码和对象提议之间存在差距这种流程通常无法生成准确的伪标签。
为了克服这个限制随后提出了基于图的学习方法使用从提议中挖掘出的有信心但有限数量的像素作为监督。
与先前的方法相比基于图的学习特别是图神经网络GNN可以直接在不同节点之间建立远距离边并从多个连接节点聚合信息从而能够抑制标签噪声的负面影响。
此外即使只有有限的标签GNN在半监督任务中也表现出色。
[21]尝试使用图卷积网络GCN[22]来进行BSSS任务。
他们通过将像素在超像素中进行分组将图像转换为无权重图[23]。
然后将图输入到标准的GCN中使用交叉熵损失生成伪标签。
然而它存在两个主要缺点限制了其性能1GraphNet
[21]构建了一个无权重的图作为输入然而这样的图不能准确地提供足够的信息因为它平等对待所有边边的权重要么是0要么是1虽然在实践中并不是所有连接的节点都有相同的亲和力。
2使用GraphNet
[21]会导致错误的特征聚合因为输入节点和边并不是100%准确的。
例如对于一张包含狗和猫的图片狗毛和猫毛的初始节点特征可能非常相似这将在它们之间产生一些连接的边因为边是基于特征相似性构建的。
这样的边会导致误报情况因为GraphNet
[21]只考虑初始边用于特征传播。
因此如果能够有效地减轻不同语义之间像素之间的强相关性就可以获得更好的传播模型生成更准确的伪对象掩码。
为了解决上述问题我们设计了一种亲和力注意力图神经网络A2GNN。
具体而言我们提出了一种新的亲和力卷积神经网络CNN将图像转换为带权重的图而不是使用传统方法构建无权重图。
我们认为带权重的图比无权重图更适合因为它可以为不同的节点对提供不同的亲和力。
图1显示了我们构建的图与先前方法[21]的区别。
可以看到先前的方法只考虑局部连接的节点并且基于超像素[23]构建了一个无权重图而我们考虑了局部和远距离边并且构建的带权重图将一个像素视为一个节点。
其次为了生成准确的伪标签我们设计了一个新的GNN层在其中应用了注意机制和边权重以确保准确的传播。
因此弱/无边连接或低注意力的节点之间的特征聚合可以显著减少从而相应地消除错误的传播。
节点的注意力随着训练的进行而动态变化。
然而为了保证监督的准确性我们只选择了一部分有信心的种子标签作为监督这对于网络优化来说是不足够的。
例如在一张图片中只有大约40%的前景像素被标记并且它们中没有一个是100%可靠的。
为了进一步解决这个问题我们引入了一个多点MP损失来增强A2GNN的训练。
我们的MP损失采用了在线更新机制从边界框信息中提供额外的监督。
此外为了加强我们的A2GNN的特征传播MP损失试图缩小相同语义对象的特征距离使同一对象的像素能够与其他像素区分开来。
最后考虑到选择的种子标签可能不完全可靠我们引入了一个一致性检查机制通过将其与MP损失中使用的标签进行比较从选择的种子标签中删除那些噪声标签。
VOC数据集上进行了大量实验。
特别是在验证集上我们实现了新的mIoU得分为76.5%。
此外我们的A2GNN还可以进一步平滑地转化为进行边界框监督的实例分割BSIS任务或其他弱监督语义分割任务。
根据我们的实验我们在所有这些任务中取得了新的最先进或可比较的性能。
我们提出了一个新的框架有效地结合了CNN和GNN的优势用于弱监督语义分割。
据我们所知这是第一个可以轻松应用于所有现有的弱监督语义分割设置和边界框监督实例分割设置的框架。
我们设计了一个新的亲和力CNN网络将给定的图像转换为一个不规则的图其中图节点特征和节点边同时生成。
与现有方法相比我们方法构建的图对于各种弱监督语义分割设置更准确。
我们提出了一个新的GNNA2GNN其中设计了一个新的GNN层可以通过基于边权重和节点注意力的信息聚合有效地减轻不准确的特征传播。
我们进一步提出了一种新的损失函数MP损失利用边界框约束挖掘额外可靠的标签并通过一致性检查去除现有的标签噪声。
我们的方法在PASCAL
2012数据集上实现了最先进的BSSS性能验证集76.5%测试集75.2%以及PASCAL
2012和COCO数据集上的最先进的BSIS性能mAPr0.559.1%mAPr0.735.5%mAPr0.7527.4%。
同时将所提出的方法应用于其他弱监督语义分割设置时也实现了最先进或可比较的性能水平。
我们的方法。
沿边的数字表示边的值软边允许边权重在0和1之间的任何值。
根据监督信号的定义弱监督语义分割通常可以分为以下几类基于涂鸦标签[1]、[2]、[3]、基于边界框标签[4]、[5]、[6]、基于点标签[8]和基于图像级别类别标签[9]、[10]、[11]。
与图像级别类别标签相比涂鸦、边界框和点标签是更强的监督信号因为它们提供了类别和定位信息。
而图像级别标签只提供了最低的注释成本下的图像类别标签。
不同的监督方式使用不同的方法生成伪标签。
对于涂鸦监督Lin等人[2]使用基于超像素的方法例如SLIC
[23]扩展初始涂鸦并使用FCN模型[13]获得最终的预测结果。
Tang等人提出了两种正则化损失[1][3]使用约束能量损失函数扩展涂鸦信息。
对于点监督Bearman等人[8]直接在损失函数中引入了通用的物体先验。
对于图像级别监督通常使用类别激活图CAM[24]作为种子来生成伪标签。
例如Ahn和Kwak设计了一个亲和网络[9]来获得转移概率矩阵并使用随机游走[25]生成伪标签。
Huang等人[26]提出使用种子区域生长算法[27]从初始的可信类别激活图中获取伪标签。
对于边界框监督SDI
[29]相结合的分割提议生成伪标签。
Song等人提出了一种基于边界框的方法[6]使用基于边界框的类别掩码和填充率引导的自适应损失来生成伪标签。
Box2Seg
根据相同的定义弱监督实例分割有不同的子任务级别图像级别[12]和边界框级别[5][7]。
对于图像级别任务Ahn等人尝试使用亲和网络[12]生成实例的伪标签。
对于边界框任务SDI
[29]相结合的分割提议生成伪标签而Hsu等人[7]试图设计一个新的损失函数依赖于边界框监督来采样正负像素。
通常针对半监督任务设计了许多不同的图神经网络GNN方法[22][31][32][33]并且它们取得了令人满意的性能。
最近GNN已经成功应用于各种计算机视觉任务如人物搜索[34]图像识别[35]3D姿态估计[36]和视频对象分割[37]等。
[21]用于弱监督语义分割。
具体而言首先基于CAM技术[24]将边界框监督转换为初始的像素级监督。
然后应用超像素方法[23]生成图节点。
他们使用预训练的CNN模型获取节点特征该特征使用对所有像素进行平均池化计算得到。
之后根据节点与其8个相邻节点之间的L1距离计算邻接矩阵。
随后使用GCN将初始的像素级标签传播到整体伪标签。
最后将所有伪标签输入到一个语义分割模型进行训练。
GraphNet证明了GNN是弱监督语义分割的一种可能解决方案。
然而该方法存在一些局限性。
首先使用超像素作为节点引入了错误的节点标签并且通过阈值构建邻接矩阵会丢失一些重要的详细信息。
其次该方法的性能受限于GNN
[22]的使用它只考虑非加权邻接矩阵。
最后GraphNet只使用交叉熵损失不能减轻错误节点、边和标签的影响。
为了克服以往基于图的学习方法的局限性我们设计了一种新的方法A2GNN它以更准确的加权图作为输入并通过同时考虑注意机制和边权重来聚合特征。
同时我们提出了一种新的损失函数提供额外的监督并对特征聚合施加限制因此我们的A2GNN可以生成高质量的伪标签。
初始化弱监督任务的常见做法是从弱监督中生成像素级的种子标签[21][38][39]。
对于边界框语义分割任务可以使用图像级别和边界框级别的标签。
我们使用这两种标签来生成像素级的种子标签因为图像级别标签可以生成前景种子而边界框级别标签可以提供准确的背景种子。
为了将图像级别标签转换为像素级别标签我们使用基于CAM的方法[9][12][24][38]。
为了从边界框监督中生成像素级别标签我们使用Grab-cut
[29]来生成初始标签不属于任何边界框的像素被视为背景标签。
最后这两种类型的标签被融合在一起生成像素级的种子标签。
[38]这是一个自监督分类网络从图像级别监督生成像素级的种子标签。
假设一个包含类别集合C
cN-1]的数据集其中c0表示背景其余表示前景类别。
从图像级别监督生成的像素级种子标签如下所示
对于边界框语义分割任务除了图像级别标签外它还提供了边界框级别标签。
我们还从边界框标签生成像素级标签因为它可以提供准确的背景标签和目标定位信息。
给定一张图像假设边界框集合为B
BM}。
对于带有标签LBk的边界框Bk其高度和宽度分别为h和w。
我们使用Grab-cut
[29]从边界框监督中生成种子标签每个边界框的种子标签定义如下
其中S(MI-Bk)是MI中针对边界框Bk预测的类别集合。
LBk∈/S(MI-Bk)表示MI中对于边界框Bk没有正确的预测标签因此我们使用MBk的预测结果作为最终的种子标签。
在图2中给出了一个示例来演示将边界框监督转换为像素级种子标签的过程。
通过组合MI和MB我们可以得到像素级种子标签。
生成像素级种子标签的示例。
给定一张带有标签的图像我们首先使用分类CNN和SEAM
[38]方法从图像级别标签生成MI。
同时使用Grab-cut将边界框标签转换为像素级标签MB。
最后将MI和MB进行整合得到像素级种子标签MF。
每种颜色代表一个类别“白色”表示像素标签未知。
在本节中我们将详细介绍所提出的A2GNN方法来解决上述三个主要问题。
为了生成准确的图我们提出了一种新的亲和力CNN来将图像转换为图。
为了为图提供准确标记的节点我们选择高度可信的像素级种子标签作为节点标签并同时根据边界框监督引入额外的在线更新标签同时通过一致性检查进一步改进像素级种子标签。
为了生成准确的伪标签我们设计了一个新的GNN层因为先前的GNN如GCN
[32]是基于标签100%准确的假设设计的而在这种情况下没有前景像素标签是100%可靠的。
生成可信的种子标签。
在这一步中根据第3节的解释图像级别标签和边界框级别标签都被转换为初始的像素级种子标签。
然后选取具有高置信度的像素级种子标签作为可信的种子标签第4.2节。
将图像转换为图。
在这一步中我们提出了一种新的亲和力CNN来生成图。
同时选取的可信种子标签将被转换为相应的节点标签。
生成最终的像素级伪标签。
使用转换后的图作为输入训练A2GNN并对图中的所有节点进行预测。
在将节点伪标签转换为像素标签后生成最终的像素级伪标签。
之后使用上述像素级伪标签作为监督训练BSSS任务的FCN模型例如Deeplab
在接下来的部分我们首先介绍如何提供有用的监督信息然后解释如何从图像中构建图第4.3节。
最后我们将介绍A2GNN包括其亲和力注意力层第4.4节和损失函数第4.5节。
一种直观的解决方案是将从公式4中获得的像素级种子标签MF用作种子标签。
然而MF存在噪声直接使用它将对CNN/GNN的训练产生不利影响。
因此在本文中我们只选择MF中高度可信的像素级种子标签作为最终的种子标签。
具体而言我们使用动态阈值从公式1中的像素标签MI中选择置信度排名前40的像素标签M0I遵循[40]的方法。
然后所选的种子标签被定义为
其中255表示标签未知。
MB和MF分别从公式3和公式4中获得。
图3右上方说明了可信标签的选择。
尽管噪声标签可以被大幅减少但是可信标签的选择存在两个主要限制1它也会删除一些正确的标签使得剩下的标签数量稀缺并且主要集中在有区分度的物体部分例如人头而不是均匀分布在整个物体上2仍然存在非准确的标签。
为了解决BSSS任务中标签稀缺的问题我们提出从可用的边界框中挖掘额外的监督信息。
假设所有的边界框都是紧密的对于边界框内的随机行或列像素至少有一个像素属于物体。
识别这些节点可以提供额外的前景标签。
通过使用在线更新的标签我们引入了一个新的一致性检查机制进一步从Mg中删除一些噪声标签。
由于这些过程依赖于我们A2GNN的输出我们将在第4.5节中详细描述这一过程。
我们提出的A2GNN的框架。
首先我们使用边界框和图像级别标签生成像素级种子标签。
然后我们使用亲和力CNN将图像转换为图。
同时我们从像素级种子标签中选择可信的标签作为节点标签白色区域的节点标签未知。
最后A2GNN将图数据作为输入节点标签作为监督生成伪标签。
我们提出了一种新的亲和力CNN使用可用的亲和力标签作为监督从图像中生成准确的图。
这是因为亲和力CNN具有以下优点。
首先它将一个像素视为一个节点而不是将一个超像素视为一个节点这样可以减少噪声。
其次亲和力CNN使用节点亲和力标签作为训练监督确保为该特定任务生成适合的节点特征而先前的GraphNet
[21]中构建的仅表示为0和1的短距离无权图边相比亲和力CNN可以构建具有软边的加权图涵盖较长距离从而提供更准确的节点关系。
与先前的工作[9][12][41][42]中使用公式4中的所有噪声标签作为监督的方法不同我们的亲和力CNN只使用在公式5中定义的可信种子标签作为监督以预测不同像素之间的关系。
为了训练我们的亲和力CNN我们首先从公式5中的可信像素级种子标签Mg生成无类别标签
需要注意的是仅使用可信标签作为监督来训练CNN是不足够的尤其是当仅考虑LAc作为损失函数时。
为了将有标签的区域扩展到无标签的区域我们提出了一种亲和力规范化损失函数LAr以鼓励从有标签的像素向其连接的无标签像素传播。
换句话说我们考虑满足以下公式的所有像素对而不仅仅考虑Rpair中的像素对
Ng∗Dg是表示所有节点特征的矩阵其中Ng是节点的数量Dg是特征的维度。
在X中第i个特征表示为xi对应于节点vi的特征。
所有有标签的节点的集合被定义为V
在训练过程中我们的亲和力CNN使用无类别的亲和力标签作为监督并学习预测像素之间的关系。
在推理过程中给定一个图像我们的亲和力CNN将同时输出VX和E用于构建一个如图4所示的图。
具体而言节点vi及其特征xi对应于骨干网络中连接特征图中的第i个像素及其所有通道的特征。
对于两个节点vi和vj它们的边Eij定义为
j)是从公式8中获得的值。
在这里我们使用一个阈值σ在我们的实验中设置为1e-3将一些低亲和力的边设为0。
最后我们生成归一化的特征
现有的研究[22][32]已经研究了有效的GNN架构其中大多数是基于图节点和边信息100准确的假设设计的。
然而在BSSS任务中情况并非如此。
我们提出了一个带有注意机制的新的GNN层来缓解这个问题。
如图3所示在提出的A2GNN中在嵌入层之后应用了一个亲和力注意模块。
亲和力注意模块包括三个称为亲和力注意层的新GNN层。
最后跟随一个输出层来预测所有节点的类别标签。
具体而言我们在第一层中使用一个特征嵌入层后面跟随一个ReLU激活函数将初始节点特征映射到分配特征的相同维度
其中WL1是输出层的参数集。
图5展示了我们亲和力注意层的流程图。
与GCN层[22]和AGNN层[43]相比我们的亲和力注意层充分利用了节点相似性和边权重信息。
如第4.2节所述我们仅选择自信标签作为监督这对于网络优化是不够的。
为了解决这个问题我们对A2GNN施加了多重监督。
具体而言我们设计了一个新的联合损失函数包括交叉熵损失、正则化浅层损失[3]和多点MP损失
其中Lce是使用在第4.2节生成的带标签节点Mg的交叉熵损失。
Lreg是使用浅层特征即颜色和空间位置的正则化损失。
Lmp是新提出的使用边界框监督的多点MP损失。
其中V_l是所有带标签节点的集合。
Mg(vj)表示节点vj的标签。
|·|用于计算元素的数量。
Oci(vj)是节点vj属于类别ci的预测概率。
V_l是带标签节点的集合。
受到[7]的启发我们设计了一个名为多点MP损失的新损失项以从边界框中获得额外的监督。
这是因为在第4.2节生成的带标签节点数量有限且不完全可靠可以通过边界框信息来补充。
MP损失基于以下考虑。
假设所有边界框都很紧密在一个边界框内的随机行或列像素中至少有一个像素属于对象如果我们能找到所有这些节点那么我们可以将它们标记为对象类别并在嵌入空间中将它们的距离缩小。
因此MP损失使对象易于区分。
具体而言对于边界框中的每一行/列被分类为边界框类别标签概率最高的节点被视为选定节点。
按照第3节中的定义假设图像中的边界框集合为B对于B中的任意边界框Bj首先我们需要为每一行/列选择概率最高的像素
cos··。
Hkm和Hkn分别对应于节点km和kn的最后一个亲和力注意层HL1中的特征。
Np和Nf都是求和项的数量。
MP损失试图在嵌入空间中将选定的节点拉近而与它们连接的所有其他节点也会受益于此损失。
这是因为GNN层可以被视为一个聚合来自相连节点的特征的层它会鼓励其他相连的节点与它们共享相似的特征。
换句话说MP损失将使属于同一对象的节点易于区分因为它们被分配到嵌入空间中的相似特征上。
在我们的模型中我们只对Kj公式24施加MP损失而不是所有带标签节点。
这是因为Mg中的其他节点仍然具有噪声标签并且与此同时Mg中的带标签前景节点更关注对象的判别性部分。
如第4.2节所述尽管我们选择了一些自信的种子标签作为监督但噪声标签仍然是不可避免的。
考虑到我们在MP损失中提供了一些额外的在线标签即在框中的每一行/列中选择概率最高的像素作为附加标签我们假设MP损失中的大多数附加标签是正确的然后对于每个框我们首先使用框内所有附加标签的特征生成一个原型
其中H^Kj_P表示第j个边界框的原型NKj是选定像素的数量。
然后对于每个边界框我们计算公式5中所有选定的自信种子标签与原型之间的距离并最终将远离原型的种子标签视为噪声标签并在每次迭代中将其移除
我们的亲和度CNN采用与上述分类网络相同的主干网络。
同时在最后三个残差块中使用了空洞卷积它们的空洞率分别设置为2、4和4。
如图4所示这三个残差块的输出通道分别为512、1024和4096。
一个节点特征是这三个输出的连接特征因此一个节点的特征维度为5632。
由于我们需要使用特征来计算距离因此使用了三个1×1卷积核来降低这三个残差块的特征维度输出通道分别设置为64、128和256。
最后使用一个具有448个通道的1×1卷积核来获得最终的特征图FA。
按照[9]的做法我们在训练和推断中将r设置为5。
公式9中的λ设置为3σxy
我们的A2GNN在第4.4节中提到有五个层第一层和三个亲和力注意层的输出通道数为256。
公式20中的λ1设置为0.01。
在Lreg中我们采用了与公式13相同的参数。
我们使用Adam作为优化器[51]学习率为0.03权重衰减为5×10^(-4)。
在训练过程中总共进行100个epoch丢弃率为0.5。
训练过程分为两个阶段在第一阶段前50个epoch不使用Lreg和一致性检查而在第二阶段使用所有的损失和一致性检查。
我们在第一层之后使用了dropout。
在训练和推断过程中我们使用双线性插值来恢复原始分辨率。
在推断过程中使用CRF
[20]作为后处理方法。
CRF的一元势使用公式19中的最终输出概率O而二元势对应于不同节点的颜色和空间位置。
所有CRF参数与[9]、[40]相同。
需要注意的是对于BSIS任务我们需要将上述伪标签转换为实例掩码。
给定一个边界框我们直接将位于边界框内并与其具有相同类别的像素分配给一个实例。
[49]作为我们的全监督语义分割模型进行公平比较。
对于BSIS任务我们采用MaskR-CNN
[16]作为最终的实例分割模型并使用Resnet-101作为主干网络。
按照与[7]相同的后处理方法我们使用CRF
2012数据集生成像素级别的种子标签大约需要12个小时训练亲和度CNN大约需要12个小时使用A2GNN生成伪标签大约需要16个小时。
[54]整个数据集包括10,582张训练图像1,449张验证图像和1,456张测试图像。
对于COCO数据集我们在默认的训练集80K张图像上进行训练然后在test-dev集上进行测试。
2012数据集我们采用平均交并比mIoU作为弱监督语义分割的评价标准采用平均精确率mAP[55]作为弱监督实例分割的评价标准。
按照之前的工作采用的相同评价协议我们报告了三个阈值0.5、0.7、0.75下的mAP分别表示为mAPr0.5mAPr0.7和mAPr0.75。
对于COCO数据集按照[56]的做法我们报告了mAP、mAPr0.5、mAPr0.75、mAPs、mAPm和mAPl。
弱监督语义分割在表1中我们将我们的方法与其他最先进的BSSS方法进行了比较。
对于使用deeplab作为分割模型的情况可以看出我们的方法在像素级监督Deeplab-Resnet101
[14]与CRF上达到了96.1%的上界。
与其他方法相比我们的方法取得了新的最先进性能。
特别是我们的deeplab-resnet101
[17]高出了很大的幅度分别约为11.8%和13.2%。
此外与唯一的图学习解决方案GraphNet
[21]相比我们的Deeplab-Resnet101方法的表现要好得多mIoU不使用CRF提高了10.9%。
我们还可以观察到我们的性能甚至比使用MCG
[45]作为分割模型时我们的方法在不使用CRF进行后处理的情况下获得了74.4%的mIoU甚至高于[47]中使用CRF的结果。
最后我们的Tree-FCN
[30]。
请注意Box2Seg专注于使用边界框的噪声标签设计分割网络因此使用他们的网络作为最终的分割网络可以进一步提高我们的性能。
弱监督实例分割在表2中我们将我们的方法与其他最先进的BSIS方法进行了比较。
可以看出我们的方法在所有评估标准下都取得了新的最先进性能。
具体而言我们的方法比SDI
[5]在mAPr0.5和mAPr0.75上分别提高了14.3%和11.1%。
同时与在这个任务上的最先进方法BBTP
[7]相比我们的方法在mAPr0.7和mAPr0.75上显著优于它分别约为5.1%和5.8%。
在mAPr0.75上的性能提高比mAPr0.7和mAPr0.5更多这也表明我们的方法可以生成保留物体结构细节的掩模。
一个有趣的观察是我们的方法甚至比完全监督的方法SDS
在图6中我们比较了我们的方法与其他一些公开可用源代码的最先进方法之间的一些定性结果。
具体而言我们将我们的结果与SDI
[7]进行了BSIS任务的比较。
可以看出与其他方法相比我们的方法产生了覆盖物体细节的更好的分割掩模。
test-dev数据集上进行了比较。
可以看出我们的方法比LIID
[61]表现要好得多mAPr50提高了16.8%。
此外我们的方法甚至与完全监督的方法MNC
2012验证集和测试集上与其他方法的比较针对BSSS任务。
F完全监督。
S涂鸦监督。
B边界框监督。
Seg.完全监督分割模型。
由于BSIS的伪标签是从BSSS任务中生成的因此在本节中我们将仅对BSSS任务进行消融研究。
我们只在训练集上评估伪标签的mIoU而不涉及验证集和测试集。
在图7中我们对BSSS任务中的我们的A2GNN与其他方法进行了比较。
可以看出我们的A2GNN比其他GNN方法表现要好得多仅使用交叉熵损失时相比AGNN
[32]提高了1.9%的mIoU而完整的A2GNN在大幅度上表现优于AGNN
在表4(a)中我们探索了我们方法中不同模块对生成伪标签的影响。
Baseline表示我们使用SEAM
[38]生成前景种子标签然后使用边界框监督生成背景。
RW表示我们遵循SEAM
[38]使用随机游走生成伪标签。
可以看出所提出的方法表现优于基准方法。
每个模块都显著提高了性能。
在表4(b)中我们研究了我们的联合损失函数的有效性。
可以看出与仅采用交叉熵损失的A2GNN相比我们的MP损失可以提高其性能2.1%验证了我们的MP损失的有效性。
通过一致性检查性能提高到77.2%表明了我们提出的一致性检查机制的有效性。
当通过这三个损失以及我们的一致性检查机制进行联合优化时性能进一步提高到78.8%。
在表4(c)中我们研究了构建图的不同方法。
超像素S.P.表示我们采用[21]来生成图节点及其特征。
距离Dis.表示我们使用特征图的L1距离来构建图边。
可以看出当直接使用特征图中的像素作为节点时性能有所提高表明其比使用超像素更准确。
当我们使用我们的亲和力CNN来构建图时性能显著提高了4.1%这表明我们的方法可以构建比其他方法更准确的图。
在表4(d)中我们研究了我们的亲和力注意力层的有效性。
可以发现如果我们单独使用注意力模块或亲和力模块mIoU得分都低于完整的A2GNN这表明我们设计的GNN层的有效性。
在表4(e)中我们展示了我们提出的亲和力CNN的损失函数和标签的联合影响。
可以看出当仅使用LAc时MF标签的表现优于Mg标签。
这是因为Mg标签仅提供了有限的像素并且这些像素通常位于对象的区分部分如人的头部。
当仅使用LAc时这样有限的标签是不足够的。
当我们同时使用LAc和LAr时Mg标签的表现要比MF标签好得多这表明LAr可以准确地将有标签区域传播到无标签区域。
此外我们还分析了对我们的A2GNN的监督的影响。
具体地我们分别比较了在我们的A2GNN中使用MF在公式4中和Mg在公式5中作为监督时的结果。
与MF相比Mg具有较少的注释节点但每个注释更可靠。
在Pascal
2012训练集上MF和Mg的mIoU得分分别为73.2%和78.8%。
这个结果验证了高可信标签的利用的有效性。
test-dev数据集上对弱监督实例分割进行了与其他方法的比较。
E额外的数据集[58]具有实例级注释。
S4Net显著实例分割模型[59]。
我们方法中不同模块的评估。
RW随机游走[38]。
H亲和力注意层。
C.C.一致性检查。
构建图的不同方法的评估。
S.P.超像素。
Feat.特征图。
Dis.距离。
Aff亲和力CNN。
为了将我们的方法应用于其他弱监督语义分割任务例如涂鸦、点和图像级别我们需要忽略我们提出的MP损失第4.5.3节和一致性检查第4.5.4节因为它们依赖于边界框监督。
此外我们需要将不同的弱监督信号转换为像素级种子标签。
除此之外所有其他步骤和参数与BSSS任务中的相同。
在接下来的章节中我们将介绍如何将不同的弱监督信号转换为像素级种子标签然后我们将报告这些任务的实验结果。
2012验证和测试数据集上与其他最先进方法的比较。
Sup.分割模型。
F全监督。
S涂鸦。
P点。
I图像级别标签。
E额外显著数据集。
“highlight”表示特定任务的最佳性能。
如第3节所述初始化弱监督任务的常见做法是从给定的弱监督生成像素级种子标签。
对于不同的弱监督我们使用不同的方法将它们转换为像素级种子标签。
图像级别监督我们直接使用公式5中定义的M0来训练我们的亲和力CNN并将其用作训练我们的A2GNN的Mg。
最终的伪标签使用比例1:3来融合我们的结果和随机游走的结果来生成。
涂鸦监督对于涂鸦监督的语义分割任务对于图像中的每个类别包括背景它提供一个或多个涂鸦作为标签。
我们使用超像素方法[23]来从初始涂鸦中获取扩展的标签MS。
为了获得训练我们的亲和力CNN的种子标签我们将MS与M0I合并使用以下规则如果MS中的像素标签已知不是255则Mg中相应的标签将与MS相同。
否则像素标签将被视为与M0I相同的标签。
为了生成A2GNN的节点标签我们直接使用Mg
点监督对于点监督的语义分割对于图像中的每个对象它提供一个点作为监督并且没有背景的注释。
为了训练我们的亲和力CNN我们直接使用M0I。
为了为A2GNN生成节点监督我们使用超像素方法[23]从初始点标签中获取扩展标签MP。
然后使用与涂鸦任务相同的设置生成Mg。
对于我们的亲和力CNN和A2GNN我们使用与我们的边界框任务相同的设置。
2012验证数据集上展示了我们A2GNN的定性结果。
我们展示了不同级别的监督信号的结果第3-6行。
较强的监督信号例如涂鸦比较弱的信号例如点、图像级别标签产生更准确的结果。
在表5中我们比较了我们的方法与其他最先进的弱监督语义分割方法之间的性能。
VOC验证集和测试集上分别达到了66.8%和67.7%的mIoU实现了最先进的性能。
与其他两种方法[8]和[3]相比我们的方法在PASCAL
2012验证数据集上的mIoU分别增加了23.4%和9.8%。
对于图像级别的监督任务我们的A2GNN在验证集和测试集上的mIoU分别达到了66.8%和67.4%。
值得注意的是PSA
[50]作为分割模型其上限比Deeplab-Resnet101
[69]是这个任务的最先进方法但它需要多轮训练过程。
此外我们的方法使用Deeplab-Resnet101
[14]实现了66.8%的mIoU在验证集上达到了我们的上限的87.0%Deeplab-Resnet
此外在图像级别的监督任务中一些方法[26][39][61][64]使用显著性模型和额外的像素级显著性数据集[72]或实例像素级显著性数据集[58]生成更准确的伪标签。
遵循这些方法我们也使用了显著性模型。
具体而言我们使用了ICD[39]中的显著性方法[73]生成初始种子标签然后使用我们的方法生成最终的伪标签。
从表5可以看出我们的方法在其他方法使用ResNet101作为骨干网络上表现出色。
在类似于ILLD
[71]作为分割骨干网络进行评估我们的性能进一步提升到69.0%和69.6%。
对于这种设置我们没有为种子标签设计特定的去噪方案。
尽管如此我们的性能与其他最先进的方法相当例如[61]这也证明了我们的方法可以很好地推广到所有弱监督任务中。
VOC训练集上伪标签的比较评估。
可以看出我们的方法优于其他方法。
与最先进的方法SEAM
[38]相比我们的方法获得了1.7%的mIoU改进。
我们还比较了我们的方法和Box2Seg
[30]之间的伪标签质量。
可以看出我们的方法大幅优于Box2Seg
在图8中我们还展示了上述三个任务的更多定性结果。
可以看出更强的监督导致更好的性能并保留更多的分割细节。
我们提出了一种新的系统A2GNN用于边界框监督的语义分割任务。
通过我们提出的亲和度注意力层即使输入图中存在噪声特征也可以被准确地聚合。
此外为了减轻标签稀缺性问题我们进一步提出了MP损失和一种一致性检查机制为模型优化提供更可靠的指导。
广泛的实验证明了我们提出的方法的有效性。
此外所提出的方法还可以应用于边界框监督的实例分割和其他弱监督的语义分割任务。
作为未来的工作我们将研究如何生成更可靠的种子标签和更准确的图从而减轻输入图中的噪声水平使我们的A2GNN能够生成更准确的伪标签。
作为专业的SEO优化服务提供商,我们致力于通过科学、系统的搜索引擎优化策略,帮助企业在百度、Google等搜索引擎中获得更高的排名和流量。我们的服务涵盖网站结构优化、内容优化、技术SEO和链接建设等多个维度。
| 服务项目 | 基础套餐 | 标准套餐 | 高级定制 |
|---|---|---|---|
| 关键词优化数量 | 10-20个核心词 | 30-50个核心词+长尾词 | 80-150个全方位覆盖 |
| 内容优化 | 基础页面优化 | 全站内容优化+每月5篇原创 | 个性化内容策略+每月15篇原创 |
| 技术SEO | 基本技术检查 | 全面技术优化+移动适配 | 深度技术重构+性能优化 |
| 外链建设 | 每月5-10条 | 每月20-30条高质量外链 | 每月50+条多渠道外链 |
| 数据报告 | 月度基础报告 | 双周详细报告+分析 | 每周深度报告+策略调整 |
| 效果保障 | 3-6个月见效 | 2-4个月见效 | 1-3个月快速见效 |
我们的SEO优化服务遵循科学严谨的流程,确保每一步都基于数据分析和行业最佳实践:
全面检测网站技术问题、内容质量、竞争对手情况,制定个性化优化方案。
基于用户搜索意图和商业目标,制定全面的关键词矩阵和布局策略。
解决网站技术问题,优化网站结构,提升页面速度和移动端体验。
创作高质量原创内容,优化现有页面,建立内容更新机制。
获取高质量外部链接,建立品牌在线影响力,提升网站权威度。
持续监控排名、流量和转化数据,根据效果调整优化策略。
基于我们服务的客户数据统计,平均优化效果如下:
我们坚信,真正的SEO优化不仅仅是追求排名,而是通过提供优质内容、优化用户体验、建立网站权威,最终实现可持续的业务增长。我们的目标是与客户建立长期合作关系,共同成长。
Demand feedback