当前位置：首页 > 百度SEO >

如何创建一个吸引人的画册设计网站？

96SEO 2026-02-20 01:37 0

。

最近的趋势有利于基于点或体素的方法#xff0c;因为它们通常产生比传统的距离视图表示更好的性能。

在这项工作中#xff0c;我们揭示了建立强大的距离视图模型的几个关键因素。

我们观察到#xff0c;“多对一”…来源ICCV2023

0、摘要

LiDAR分割对于自动驾驶感知至关重要。

最近的趋势有利于基于点或体素的方法因为它们通常产生比传统的距离视图表示更好的性能。

在这项工作中我们揭示了建立强大的距离视图模型的几个关键因素。

我们观察到“多对一”的映射语义不连贯性形状变形的可能障碍对有效的学习从距离视图投影。

我们提出的RangeFormer

-一个全周期的框架包括跨网络架构数据增强和后处理的新颖设计-更好地处理学习和处理LiDAR点云从范围的角度。

我们进一步介绍了一个可扩展的训练范围视图Scalable

Training

STR的策略训练任意低分辨率的2D范围图像同时仍然保持令人满意的3D分割精度。

我们表明第一次范围视图方法是能够超越点体素和多视图融合同行竞争的LiDAR语义和全景分割基准即SemanticKITTI、nuScenes和ScribbleKITTI。

Introduction

LiDAR点云具有独特的特性。

作为现实世界场景的直接反映它们往往是多样和无序的从而给学习带来额外的困难[2742]。

不可避免地高效和有效的LiDAR点云处理需要良好的表示[67]。

尽管存在如Tab.1主流方法主要基于点视图[3364]体素视图[15638729]和多视图融合[437554]。

然而这些方法需要计算密集的邻域搜索[53]3D卷积运算[45]或多分支网络[225]这些方法在训练和推理阶段通常效率低下。

基于投影的表示如范围视图[7148]和鸟瞰视图[8386]是更容易处理的选项。

3D到2D光栅化和成熟的2D算子为快速和可扩展的车载LiDAR感知打开了大门[487467]。

不幸的是当前基于投影的方法[851383]的分割精度仍然远远落后于趋势[777579]。

从投影LiDAR扫描中学习的挑战来自LiDAR数据表示的潜在有害因素[48]。

如图1、距离视图投影常常遇到几个困难包括1由于水平角分辨率有限而引起的相邻点的“多对一”冲突;

2由于3D稀疏性和传感器中断导致的距离图像中的“洞”;以及3光栅化过程中的潜在形状变形。

虽然这些问题在范围视图学习中是普遍存在的但以前的作品几乎没有考虑解决它们。

源于图像分割社区[82]现有技术广泛采用全卷积网络FCN[468]用于范围视图LiDAR分割[48851336]。

有限的接受领域的FCNs不能直接模拟长期的依赖性因此在处理上述障碍是不太有效的。

在这项工作中我们寻求一种替代目前的范围视图激光雷达分割模型。

受Vision

TransformerViT及其后续产品[1970734460]的成功启发我们设计了一个名为RangeFormer的新框架以更好地处理距离视图中LiDAR点云的学习和处理。

我们将范围视图网格的分割公式化为seq

2seq问题并采用标准的自我注意模块[69]以“全局”方式捕获丰富的上下文信息这在FCN中经常被省略[48113]。

然后利用这种全局感知提取的分层特征被馈送到多层感知MLP中以进行解码。

以这种方式距离图像中的每个点都能够建立与其他点的交互-无论是近还是远以及有效还是空-并且进一步导致从LiDAR距离视图进行更有效的表示学习。

值得注意的是这种架构虽然简单但仍然存在一些困难。

第一个问题与数据多样性有关。

流行的LiDAR分割数据集[721562]包含数万个用于训练的LiDAR扫描。

然而这些扫描在以顺序方式收集它们的意义上是不太多样的。

这阻碍了基于Transformer的架构的训练因为它们通常依赖于足够的样本和强大的数据增强[19]。

为了更好地处理这个问题我们设计了一个增强组合是为范围视图量身定制的。

受最近的3D增强技术[863749]的启发我们通过行混合视图移动复制粘贴和网格填充来操纵范围视图网格。

正如我们将在以下部分中展示的那样这些轻量级操作可以显著提高SoTA范围视图方法的性能。

[71]或k-NN

[48]来平滑/推断范围视图预测。

然而通常很难在无监督方式下找到3D标签的欠平滑和过平滑之间的良好平衡[35]。

相比之下我们设计了一种监督后处理方法首先将整个LiDAR点云子采样为等间隔的“子云”然后推断其语义这从整体上降低了混叠范围视图网格的不确定性。

-一个可扩展的范围视图训练范例。

STR首先将整个LiDAR扫描沿方位方向沿着“划分”为多个组然后“征服”每个组。

这将高水平分辨率的距离图像转换为低分辨率的距离图像的堆叠同时可以更好地保持最佳可能的粒度以缓解“多对一”的冲突。

经验上我们发现STR有助于降低训练过程中的复杂性而不会牺牲太多的收敛速度和分割精度。

在现有的基准上从LiDAR分割精度和效率方面展示了RangeFormer和STR的优势。

具体而言我们在SemanticKITTI

[5]上实现了73.3%的mIoU和64.2%的PQ显著超过了先前的范围视图方法[8513]也优于基于SoTA融合的方法[773179]。

我们还在nuScenes

[68]弱监督数据集上建立了优势这验证了我们的可扩展性。

虽然更有效但我们的方法比最近的体素[8763]和融合[7577]方法快2倍到5倍并且可以以传感器帧速率运行。

LiDAR传感器被设计为捕获高保真3D结构信息该信息可以通过各种形式表示即原始点[525364]、范围视图[3272741]、鸟瞰视图BEV[83]、体素[4515877910]和多视图融合[437577]如表1中所总结。

1.点和稀疏体素方法是流行的但具有ON

d的复杂度其中N是点数通常在105的数量级[67]。

BEV提供了一种有效的表示但仅产生低于标准的性能[9]。

至于基于融合的方法它们通常包含多个网络这些网络太重无法产生合理的训练开销和推理延迟[547961]。

在所有表示中范围视图是直接反映LiDAR采样过程的视图[652066]。

因此我们专注于这种模态以进一步拥抱其紧凑性和丰富的语义/结构线索。

2.2

以前的范围视图方法建立在成熟的FCN结构上[467172743]。

RangeNet

[17]使用扩张的卷积来进一步扩大感受野。

Lite-HDSeg

[55]提出采用谐波卷积来减少计算开销。

EfficientLPS

[58]提出了一个邻近卷积模块来利用范围图像中的邻域点。

FIDNet

[85]和CENet

[13]将编码器切换到ResNet并用简单的插值替换解码器。

与使用FCNs相比我们建立RangeFormer自我关注并展示了在范围视图学习中进行远程依赖建模的潜力和优势。

2.3

大多数3D数据增强技术是以对象为中心的[81115739]因此不能推广到场景。

Panoptic-PolarNet

[49]通过从一个场景到另一个场景补充点来提出上下文外混合。

MaskRange

[26]设计了一个加权的粘贴下降增强以减轻过拟合和改善类平衡。

LaserMix

[37]提出沿着倾斜轴混合标记和未标记的LiDAR扫描以实现有效的半监督学习。

在这项工作中我们提出了一种新颖的轻量级增强组合专为范围视图学习结合混合移动工会和复制粘贴操作直接在栅格化的网格同时仍然保持场景的结构一致性。

2.4

尽管它是距离视图LiDAR分割的不可或缺的模块但先前的工作几乎没有考虑改进后处理过程[67]。

大多数作品遵循CRF

[71]或k-NN

[48]来平滑或推断冲突点的语义。

Technical

在本节中我们首先回顾范围视图光栅化的细节第3.1节为了更好地解决距离视图学习中的障碍我们引入了RangeFormer3.2)和STRSec.3.3)其分别强调可扩展LiDAR分割的有效性和效率。

3.1.

安装在车顶上的自我车辆如图所示。

1旋转LiDAR传感器以预定义角度发射各向同性激光束并通过扫描周期中的时间测量来感知周围环境的位置和反射强度。

具体地每个LiDAR扫描在单个扫描周期中捕获并返回N个点其中扫描中的每个点pn由笛卡尔坐标。

光栅化。

对于给定的LiDAR点云我们将该扫描内的点光栅化为2D圆柱投影Ruv也称为范围图像其中H和W分别是高度和宽度。

每个点pn的光栅化过程可以公式化如下

ppxn2

ϕup|的|向下倾斜|表示传感器的垂直视场FOV并且向上和向下分别是向上和向下方向的倾斜角。

请注意H通常由LiDAR传感器的光束编号预定义而W可以根据要求设置。

(该操作很常见把点云映射到一个柱状平面)

最终的距离图像由六个光栅化特征嵌入组成即坐标pxpypz、深度pd、强度pi和存在pe指示网格是否被有效点占据。

范围语义标签yuv∈

RHW-其从3D中的每点标签光栅化-与Ruv共享相同的光栅化索引和分辨率。

3D分割问题现在变成了2D问题并且范围图像中的网格预测然后可以以Eq1反映射。

(一般channel是5这里多增加了一个是否占据应该是前文有提到空洞)

3.2.

如前所述在图1的距离视图表示中存在潜在的有害因素。

Eq.(1)的一对一映射通通常不成立因为H

×W远小于N。

现有技术[48213]采用HW64512来对每个约120k个点的激光雷达扫描进行光栅扫描[5]导致超过70%的信息损失2。

深度图像中有限的水平角分辨率和大量的空网格会给模型训练带来额外的困难如形状变形、语义不一致等。

3.2.1

为了追求更大的感受野和更长的依赖建模我们设计了一个基于自我注意的网络包括标准的Transformer块和MLP头如图所示2.给定一批光栅化的距离图像Ruv由三层MLP层组成的距离嵌入模块REM首先将网格中的每个点映射到更高维度的嵌入。

这与PointNet类似[52]。

接下来我们将F0划分为大小为3

3的重叠面片并将它们送入Transformer块。

类似于PVT

[70]我们设计了一个金字塔结构来促进多尺度特征融合分别为四个阶段产生{F1F2F3F4}下采样因子为124和8。

每个阶段由自定义数量的Transformer块组成每个块包括两个模块。

其中headi

WQ、WK、WV和WO是查询Q、键K、值V和输出O的权重矩阵。

如[70]中所建议的K和V的序列长度进一步减少因子R以保存计算开销。

2)前馈网络FFN由MLP和激活组成

[23]不同我们放弃了显式的位置嵌入而是直接将其合并到特征嵌入中。

如[73]中所介绍的这可以通过在FFN中添加一个具有零填充的3

3.2.2

为了避免解码中的繁重计算我们采用简单的MLP作为分割头。

在检索了四个阶段的所有特征后我们首先统一了它们的维度。

这通过两个步骤实现1信道统一其中具有嵌入大小的每个Fi经由一个MLP层统一。

2)空间统一其中来自最后三个阶段的Fi通过简单的双线性插值被调整大小为范围嵌入大小H

如[85]中所证明的范围视图网格的双线性插值等效于PointNet

[53]中的距离插值具有四个邻居。

在这里前一种操作是更好的选择因为它完全没有参数。

最后我们将四个Hi连接在一起并将其馈送到另外两个MLP层中其中信道维度逐渐映射到d_{cls}即类数以形成类概率分布。

此外我们为每个Hi添加一个额外的MLP层作为辅助磁头。

在训练期间分别监督来自主头和四个辅助头的预测。

至于推理我们只保留主分割头丢弃辅助头。

主分割头

[86]我们在RangeFormer之上添加了一个panoptic头来估计实例中心和偏移称为Panoptic-RangeFormer。

由于我们以自下而上的方式解决这个问题因此事物类的语义预测被用作前景掩码来形成3D中的实例组。

接下来我们通过预测XY平面上每个点的中心热图[12]和偏移量来进行2D类无关实例分组。

基于[86]上述两个方面的预测可以通过多数投票进行融合。

正如我们将在实验中展示的那样RangeFormer在语义学习方面的优势进一步产生了更好的全景分割性能。

3.2.4

数据增强通常有助于模型学习更一般的表示从而提高准确性和鲁棒性。

LiDAR分割中的现有技术在点级进行一系列增强[87]即全局旋转、抖动、翻转和随机丢弃我们将其称为“常见”增强。

为了更好地包含范围视图表示的丰富语义和结构线索我们提出了一个增强组合包括以下四个操作。

RangeMix

其混合了沿倾角和方位角θ方向的两个沿着扫描。

这可以被解释为切换两个范围图像的某些行。

在计算当前扫描和随机采样扫描的ϕ和θ之后我们然后将点分成kmix相等的跨度倾斜范围即不同的混合策略。

然后切换来自两次扫描的相同倾斜范围中的对应点。

在我们的实验中我们从组合中设计混合策略kmix从列表中随机抽样[23456]。

个人理解是要么沿着垂直要么沿着水平将图像分成n份然后两次扫面中随机交换一份

RangeUnion

其用来自另一个扫描的网格填充一个扫描的空网格。

由于3D中的稀疏性和潜在的传感器中断即使在光栅化之后也有大量的网格是空的。

因此我们使用存在嵌入pe来搜索和填充这些空白网格这进一步丰富了距离图像的实际容量。

给定一定数量的N空范围视图网格我们随机选择k*N候选网格进行点填充其中k设置为50%。

(这个空洞填充的是什么数据呢)

RangePaste

其在距离图像中的对应位置处将尾部类从一个扫描复制到另一个扫描。

这促进了稀有类的学习并且还在投影中保持对象的空间布局。

随机采样扫描的地面实况语义标签用于创建粘贴蒙版。

要粘贴的类是那些在“tail”分布中的类它形成了一个语义类列表sem类。

在索引稀有类的点之后我们将它们粘贴到当前扫描中同时保持范围图像中的相应位置。

把不常见的类单独复制出来到别的scan上

RangeShift

arctanpy/px沿着滑动扫描以改变全局位置嵌入。

这对应于使用kshift行沿行方向沿着移动范围视图网格。

在我们的实验中kshift是从W

4到3

4的范围内随机采样的。

这四个增强是为范围视图量身定制的可以在数据加载过程中实时操作而不会在训练过程中增加额外的开销。

正如我们将在下一节中展示的那样它们在提高范围视图分割模型的性能方面发挥着至关重要的作用。

整体向左平移一定角度

3.2.5RangePost

[48]以无监督的方式为边界附近的点投票和分配标签无法具体处理“多对一”冲突。

因此我们以监督的方式处理这一问题。

我们首先将整个点云子采样为等间隔的“子云”。

由于相邻点属于同一类的可能性很高因此这些“子云”共享非常相似的语义。

接下来我们将这些子集堆叠并馈送到网络。

在获得预测后我们将它们缝合回原始位置。

对于每次扫描这将自动为在光栅化过程中合并的点分配标签只需一次向前传递这直接减少了“多对一”映射造成的信息丢失。

最后可以将先前的后处理技术[4885]应用于这些新的预测以进一步增强重新光栅化过程。

3.3.

为了追求更好的训练效率现有技术采用低水平角分辨率即在等式中W的较小值。

(1)用于范围图像光栅化[482]。

这不可避免地加剧了“多对一”的冲突导致更严重的形状扭曲并导致低于标准的性能。

3.3.1

我们不是直接为Ruv分配小W而是首先查找最佳可能选项。

我们发现在激光雷达扫描中的点的数量和范围图像的期望容量之间的“占用权衡”。

如图3、常规选择即512、1024和2048不是最佳的。

两条线的交叉指示宽度1920的范围图像倾向于是信息量最大的表示。

然而这种配置不可避免地消耗比传统使用的512或1024分辨率多得多的存储器并且进一步增加了训练和推理开销。

3.3.2

为了在追求效率的同时保持W的相对高的分辨率我们提出了一种“分而治之”的学习范式。

具体来说我们首先基于每个点的唯一方位角将LiDAR扫描中的点划分为多个组即θi

arctanpy

i。

这将构成Z个不重叠的“意见”的完整的360度全景范围内的看法如图4所示其中Z是超参数并确定要分裂的组的总数。

接下来将以高水平分辨率分别对每组中的点进行栅格化以缓解“多对一”和变形问题。

以这种方式距离图像的实际水平训练分辨率被放宽Z倍即而每个“视图”中的范围视图投影的粒度网格的数量被完美地保持。

意思是分成Z个块

3.3.3

在训练过程中对于每次LiDAR扫描我们只随机选择一个Z点组进行光栅化。

也就是说模型将在每一步使用一批随机抽样的“视图”进行训练。

在推理过程中我们对给定扫描的所有组进行光栅扫描并沿批次维度沿着堆叠范围图像。

所有的“视图”现在都可以在一个过程中推断出来然后将预测结果包装起来形成完整的扫描。

尽管是一个经验的设计我们发现这个STR范式在训练过程中具有高度的可扩展性。

来自多个“视图”的训练的收敛率倾向于与传统的训练范例一致即STR可以使用相同的迭代次数获得有竞争力的结果而内存消耗现在已经减少到只有1/Z这解放了小内存GPU的使用用于训练。

Experimental

我们在三个标准的LiDAR分割数据集上进行实验。

SemanticKITTI

[5]提供了22个序列和19个语义类由64束激光雷达传感器捕获。

序列00至10不包括08、08和11至21分别用于训练、验证和测试。

nuScenes

[21]由从波士顿和新加坡收集的1000个驾驶场景组成由于使用了32束传感器这些场景较为稀疏。

将相似类和不常见类合并后采用16类。

ScribbleKITTI

[68]与[5]共享完全相同的数据配置但用线条涂鸦进行了弱注释这对应于训练期间可用的约8.06%的语义标签。

4.1.2

按照标准实践我们报告了类别i的交集IoU和所有类别的平均得分mIoU其中IoUi

TPi

TPiFPiFNi。

TPi、FPi和FNi是真阳性、假阳性和假阴性。

对于全景分割模型通过全景质量PQ进行测量[34]

它包括分割质量SQ和识别质量RQ。

我们还报告了事物和东西类的单独得分即PQTh、SQTh、RQTh和PQSt、SQSt、RQSt。

通过将每个填充类的PQ交换为其IoU然后对所有类进行平均来定义PQ†

4.1.3

×W的输入Ruv首先被馈送到REM中用于距离视图点嵌入。

它由三个MLP层组成分别将Ruv的嵌入dim从6映射到64、128和128并使用批范数和GELU激活。

REM的输出大小为128

W用作Transformer模块的输入。

具体地对于四个阶段中的每一个补丁嵌入层将大小为Hemed、Wembed的输入划分为3

3补丁其中重叠步幅等于1对于第一阶段和2对于最后三个阶段。

在重叠补丁嵌入之后使用标准多头注意操作处理补丁如[197073]中所述。

我们保留使用残余连接和层规范化Add

Norm的默认设置。

四个阶段中的每一个的头的数量是[3463]。

从不同阶段提取的分层特征被存储并用于解码。

具体地四个阶段中的每一个产生空间大小为[HWH

8]的特征其中通道维度为[128128320512]。

如前所述我们执行两个统一步骤来统一不同特征图的通道和空间大小。

我们首先将它们的通道尺寸映射到256即[128HW]

[256HW][128H

×W的空间大小。

在RangeAug中进行四次扩增的概率设置为[0.90.20.91.0]。

对于RangePost我们将整个扫描分为三个“子云”用于2D到3D的重新光栅化。

4.1.4

1920的实验。

我们使用AdamW优化器[47]和OneCycle调度器[59]其中lr

e-3。

对于STR训练我们首先将点划分为5个和2个视图然后分别将它们光栅化为SemanticKITTI

[5]和nuScenes

[16]上预训练20个epoch然后分别在SemanticKITTI

[5]和ScribbleKITTI

[21]上训练100个epoch批量大小为32。

与[5513]类似我们包括交叉熵骰子损失Lovazz-Softmax损失[6]和边界损失[55]来监督模型训练。

所有模型都可以在单个NVIDIA

A100/V100

首先我们将所提出的RangeFormer与SemanticKITTI

[5]上的13种先验和SoTA距离视图LiDAR分割方法进行比较见表1。

2的情况。

在传统的512、1024和2048设置中我们观察到比SoTA方法CENet

[13]提高了9.3%、9.8%和8.6%的mIoU比MaskRange

[26]高7.2%的mIoU。

这种优势是普遍的几乎所有的类尤其是明显的动态和小型的自行车和摩托车。

在选项卡中。

3.进一步比较了RangeFormer与其他模态的11种方法。

我们可以看到当前的趋势有利于基于融合的方法这些方法通常将点视图和体素视图联合收割机结合起来[3114]。

虽然只使用范围视图RangeFormer取得了迄今为止最好的成绩;它超过最好的基于融合的方法2DPASS

[77]

2048版本相比取得了更好的分数。

RangeFormer使用STR实现了72.2%的mIoU这比排行榜上的大多数方法都要好参见表1。

3)同时比高训练分辨率快13.5%即2048选项参见选项卡。

5)节省了80%的内存消耗。

值得再次强调的是收敛速度往往不会受到影响。

相同数量的训练时期被应用于STR和常规训练以确保比较是准确的。

4.2.3

RangeFormer在语义分割方面的优势进一步带来了更好的全景分割性能。

从Tab。

4我们可以看到Panoptic-RangeFormer在PQPQ†和RQ方面比最近的SoTA方法Panoptic-PHNet

[41]获得了更好的分数。

这种优越性在STR范式下仍然存在并且对于物质类来说尤其明显。

统一语义和实例LiDAR分割的能力进一步验证了我们框架的可扩展性。

4.2.4

最近[68]采用线条涂鸦来标记LiDAR点云这进一步节省了注释预算。

从图5a中我们可以观察到在弱监督下范围视图方法的性能远远优于基于体素的方法[156387]。

这归功于范围视图的紧凑和语义丰富的属性它为学习保持了更好的表示。

在没有额外模块或过程的情况下RangeFormer实现了63.0%的mIoU并在事物类和东西类方面表现出明显的优势。

4.2.5

分割精度和推理运行时间之间的权衡对于车载LiDAR分割至关重要。

选项卡.5总结了最近方法的延迟和mIoU分数。

我们观察到由于密集和计算友好的2D表示基于投影的方法[838513]往往比基于体素和融合的方法[547587]快得多。

在所有方法中RangeFormer产生最佳可能的权衡;它实现了比现有范围视图方法更高的mIoU分数[8513]同时比体素和融合对应物快2倍至5倍[776375]。

此外范围视图方法还受益于在图像数据集上使用预先训练的模型例如[18]如表中所示ImageNet和Cityscapes

4.2.6

[5]序列08上SoTA范围视图LiDAR分割方法[8513]的一些可视化示例。

如从误差图清楚地示出的现有技术发现分割稀疏分布的区域是困难的地形和人行道。

相比之下RangeFormer能够对长距离依赖性进行建模并保持较大的感受野能够从整体上减轻错误。

我们还发现在分割对象的形状和边界的优势。

更多的视觉比较见附录。

4.3.

512的输入探测RangeFormer中的每个组件。

由于我们的贡献是通用的我们还报告了SoTA范围视图方法的结果[8513]。

4.3.1

如图5b数据增强有助于缓解数据稀缺性并大幅提高细分性能。

基于注意力的模型更依赖于数据多样性[19]。

作为一个典型的例子RangeFormer的“普通”版本产生的分数略低于CENet

[13]。

在所有三种方法中RangeAug有助于显着提高性能并表现出明显优于常见增强和最近的Mix3D

[49]。

值得一提的是RangeAug所需的额外开销在GPU上可以忽略不计。

4.3.2

图5c再次证明了后处理在距离视图LiDAR分割中的重要性。

如果不应用它“多对一”问题将导致严重的性能下降。

与广泛采用的k-NN

[85]相比RangePost可以更好地恢复正确的信息因为相邻点之间的混叠已经整体减少。

我们还发现额外的开销可以忽略不计因为“子云”是沿着批次维度沿着堆叠的并且可以在一个向前传递中处理。

值得注意的是这种改进发生在训练阶段之后并且对于各种范围视图分割方法是现成的和通用的。

4.3.3

为了揭示STR中可能的最佳粒度我们将点云分为4568和10个视图并在图中显示其结果。

7.我们对它们应用相同的训练迭代因此它们的实际内存消耗变为1

Z。

我们看到4或5个视图的训练往往会产生更好的分数;而在更多视图上会聚速率将受到影响这可能是由于低分辨率距离图像中的有限相关性。

总之STR为距离视图LiDAR分割开辟了一种新的训练范例可以更好地平衡准确性和效率。

实际上这个操作会损害性能相当于输入变少了

5、Conclusion

在这项工作中在防御传统的范围视图表示我们提出了RangeFormer一个新的框架实现上级性能比其他形式的语义和全景激光雷达分割。

我们还引入了STR这是一种更具可扩展性的处理LiDAR点云学习和处理的方法可以产生更好的准确性和效率权衡。

我们的方法为准确的车载LiDAR感知带来了更多的可能性。

在未来我们将寻求更轻量级的自注意力结构和计算以进一步提高效率。

Appendix

在本附录中我们补充了更多的材料来支持本文的主体。

具体而言本附录的结构如下。

7提供了额外的定量结果包括我们的比较研究和消融研究的类IoU评分。

Additional

在本节中我们提供了更多的技术细节以帮助读者更好地理解我们的方法。

具体来说我们首先详细说明我们工作中使用的数据集和基准。

然后我们总结网络配置并提供更多的训练和测试细节。

6.1.

[5]数据集已被广泛用于评估和比较模型性能。

它由总共22个序列组成收集自德国的街景。

训练、验证和测试扫描的数量分别为19130、4071和20351。

激光雷达点云由Velodyne

HDL64E传感器捕获每次扫描约120k个点垂直角分辨率为64。

因此我们在3D到2D光栅化期间将H设置为64。

在这项工作中采用了19个类的常规映射。

nuScenes

[7]是迄今为止最全面的基准。

它是由Motional前身为nuTonomy的团队开发的。

数据收集自波士顿和新加坡。

我们使用nuScenes中的lidarseg集[21]进行LiDAR分割。

它包含28130个训练扫描和6019个验证扫描。

Velodyne

HDL32E传感器用于数据收集可产生约40k至50k点的稀疏点云。

因此我们在3D到2D光栅化期间将H设置为32。

在这项工作中我们采用了传统的16个类从官方映射。

ScribbleKITTI

由于人工标注通常是昂贵和耗时的越来越多的最近的作品已经开始寻求弱注释。

ScribbleKITTI

[5]从而保存了时间和精力。

最终有效语义标签占点数的比例为8.06%。

我们采用与SemanticKITTI相同的3D到2D光栅化配置因为这两个集合共享相同的数据格式即64个波束每次LiDAR扫描约120k个点16个语义类。

我们遵循作者的原始设置并报告SemanticKITTI序列08的分数。

6.2.

×W的输入Ruv首先被馈送到REM中用于距离视图点嵌入。

它由三个MLP层组成分别将Ruv的嵌入dim从6映射到64、128和128并使用批范数和GELU激活。

Overlap

W用作Transformer模块的输入。

具体地对于四个阶段中的每一个补丁嵌入层将大小为Hemed、Wembed的输入划分为3×3补丁其中重叠步幅等于1对于第一阶段和2对于最后三个阶段。

Multi-Head

Feed-Forward.在重叠补丁嵌入之后使用标准多头注意操作处理补丁如[197073]中所述。

我们保留使用残余连接和层规范化Add

Norm的默认设置。

四个阶段中的每一个的头的数量是[3463]。

Segmentation

Head.从不同阶段提取的分层特征被存储并用于解码。

具体地四个阶段中的每一个产生空间大小为[HWH

8]的特征其中通道维度为[128128320512]。

如正文所述我们执行两个统一步骤来统一不同特征图的通道和空间大小。

我们首先将它们的通道尺寸映射到256即[128HW]

[256HW][128H

我们的LiDAR分割模型使用PyTorch实现。

所提出的数据扩充RangeAug、后处理技术RangePost和STR分区策略都是GPU辅助的并且在数据准备过程中这避免了在模型训练期间增加额外的开销。

“共同”数据扩充的配置即缩放、全局旋转、抖动、翻转和随机丢弃描述如下。

随机缩放点坐标pxpypz的全局变换其中每个点的坐标在−0.05%到0.05%的范围内随机缩放。

全局旋转XY平面内点坐标pxpy的全局变换旋转角度在0度到360度范围内随机选择。

随机抖动点坐标px、py、pz的全局变换其中每个点的坐标在-0.3m

到0.3m

等跨倾角范围即不同的混合策略。

然后交换两次扫描中相同倾角范围内的对应点。

在我们的实验中我们从组合中设计混合策略并且

kmix

RangeUnion点嵌入中的存在性pe用于创建潜在的掩模然后将其用作用来自随机采样扫描的点在相应位置补充当前距离图像中的空网格的指示符。

给定多个

Nunion

RangePaste随机采样扫描的真实语义标签用于创建粘贴蒙版。

要粘贴的类是“尾部”分布中的类它形成语义类列表sem

类。

对稀有类的点进行索引后我们将它们粘贴到当前扫描中同时保持范围图像中的相应位置。

kshift

训练时进行五种常见增强的概率设置为[1.0,1.0,1.0,1.0,0.9]而进行范围视图增强的概率设置为

[0.9,

在验证期间所有数据增强即常见增强操作和建议的范围视图增强操作都设置为

false。

我们注意到最近的一些工作在验证集上使用了一些技巧例如测试时间增强、模型集成等。

值得一提的是我们没有使用任何技巧来提高验证性能以便结果可以直接与遵循标准设置的方法。

CENet

作者的代码来实现这一点它在多个增强输入中进行投票以生成最终预测。

三种常见的增强即全局旋转、随机抖动和随机翻转用于产生增强输入。

投票数设置为

SemanticKITTI

正如正文中所述我们提出了一种可扩展的范围视图训练STR策略以节省训练期间的计算成本。

如图

所示STR

点云子采样为等间隔的“子云”它们共享相似的语义。

接下来我们将点云的这些子集叠加并输入到

LiDAR

分割模型中进行推理。

获得预测后我们将它们缝合回原来的位置。

正如我们在实验中的几种范围视图方法所验证的那样RangePost可以更好地恢复正确的信息因为相邻点之间的混叠已经得到了整体的减少。

Additional

版本相对于原始点、鸟瞰图、范围视图和体素方法具有明显的优势。

当仅使用范围视图表示时我们还获得了比最近基于多视图融合的方法[77,31,79,40]更好的分数。

表8显示了不同LiDAR语义分割方法在ScribbleKITTI

[5]的val集相同的类别IoU分数。

我们可以看到在这个弱注释数据集上RangeFormer

SoTA

分数。

对于汽车、自行车、摩托车和人等动态类别这种优势尤其明显。

还值得注意的是我们的方法在仅使用

8.06%

分数。

我们可以看到距离视图LiDAR分割方法能够在非常小的分辨率范围图像上进行训练例如W

192、W

320。

在节省大量内存消耗的同时分割性能相对较低。

稳定的。

例如RangeFormer

192

分割方法都要好。

水平分辨率越高分割性能往往会得到改善。

平衡准确性和效率的灵活性为从业者提供了更多的可能性和选择。

Additional

在本节中我们提供了我们方法的额外定性结果以进一步证明我们的优势。

8.1.

13]。

与现有技术相比我们可以看到RangeFormer产生了更好的LiDAR分割性能。

它从整体上消除了围绕自我车辆的错误预测特别是对于多个类别聚集在一起的复杂区域。

8.2.

尽管RangeFormer大幅提升了LiDAR分割性能但仍然容易出现一些失败案例。

从图9和图10中的误差图可以看出错误的预测很可能发生在物体和背景的边界处图9中的第一个场景。

对于稀有类别图

中的第四个场景也可能存在错误预测。

考虑到此类情况的更复杂的设计可能会产生更好的激光雷达分割性能。

8.3.

demo4.mp4。

每个视频演示由数百个帧组成可以对我们提出的方法进行更全面的评估。

这些视频演示将在我们的网站上公开发布3。

自己总结疑问

384的宽度是怎么来的有点好奇384*51920但是原文消融实验最高的结果是480的时候得到的。

在cenet

str有增强但是在作者提出的网络str没有增强。

如果把一个图片分成N算算完在拼接回去时间为什么会更少呢

3、Augmentation

标签： 免费的域名网站企业网站推广可以选择哪些方法做海报的网站小白qq

上一篇：容桂网站制作代理网站被K后多久能恢复？
下一篇： 2026年铝塑共挤门窗行业推荐：哪些厂家的产品质量评价最高？

为您推荐

SEO优化服务概述

作为专业的SEO优化服务提供商，我们致力于通过科学、系统的搜索引擎优化策略，帮助企业在百度、Google等搜索引擎中获得更高的排名和流量。我们的服务涵盖网站结构优化、内容优化、技术SEO和链接建设等多个维度。

百度官方合作伙伴白帽SEO技术数据驱动优化效果长期稳定

SEO优化核心服务

网站技术SEO

网站结构优化 - 提升网站爬虫可访问性
页面速度优化 - 缩短加载时间，提高用户体验
移动端适配 - 确保移动设备友好性
HTTPS安全协议 - 提升网站安全性与信任度
结构化数据标记 - 增强搜索结果显示效果

内容优化服务

关键词研究与布局 - 精准定位目标关键词
高质量内容创作 - 原创、专业、有价值的内容
Meta标签优化 - 提升点击率和相关性
内容更新策略 - 保持网站内容新鲜度
多媒体内容优化 - 图片、视频SEO优化

外链建设策略

高质量外链获取 - 权威网站链接建设
品牌提及监控 - 追踪品牌在线曝光
行业目录提交 - 提升网站基础权威
社交媒体整合 - 增强内容传播力
链接质量分析 - 避免低质量链接风险

SEO服务方案对比

服务项目	基础套餐	标准套餐	高级定制
关键词优化数量	10-20个核心词	30-50个核心词+长尾词	80-150个全方位覆盖
内容优化	基础页面优化	全站内容优化+每月5篇原创	个性化内容策略+每月15篇原创
技术SEO	基本技术检查	全面技术优化+移动适配	深度技术重构+性能优化
外链建设	每月5-10条	每月20-30条高质量外链	每月50+条多渠道外链
数据报告	月度基础报告	双周详细报告+分析	每周深度报告+策略调整
效果保障	3-6个月见效	2-4个月见效	1-3个月快速见效

SEO优化实施流程

我们的SEO优化服务遵循科学严谨的流程，确保每一步都基于数据分析和行业最佳实践：

网站诊断分析

全面检测网站技术问题、内容质量、竞争对手情况，制定个性化优化方案。

关键词策略制定

基于用户搜索意图和商业目标，制定全面的关键词矩阵和布局策略。

技术优化实施

解决网站技术问题，优化网站结构，提升页面速度和移动端体验。

内容优化建设

创作高质量原创内容，优化现有页面，建立内容更新机制。

外链建设推广

获取高质量外部链接，建立品牌在线影响力，提升网站权威度。

数据监控调整

持续监控排名、流量和转化数据，根据效果调整优化策略。

SEO优化常见问题

SEO优化一般需要多长时间才能看到效果？

SEO是一个渐进的过程，通常需要3-6个月才能看到明显效果。具体时间取决于网站现状、竞争程度和优化强度。我们的标准套餐一般在2-4个月内开始显现效果，高级定制方案可能在1-3个月内就能看到初步成果。

你们使用白帽SEO技术还是黑帽技术？

我们始终坚持使用白帽SEO技术，遵循搜索引擎的官方指南。我们的优化策略注重长期效果和可持续性，绝不使用任何可能导致网站被惩罚的违规手段。作为百度官方合作伙伴，我们承诺提供安全、合规的SEO服务。

SEO优化后效果能持续多久？

通过我们的白帽SEO策略获得的排名和流量具有长期稳定性。一旦网站达到理想排名，只需适当的维护和更新，效果可以持续数年。我们提供优化后维护服务，确保您的网站长期保持竞争优势。

你们提供SEO优化效果保障吗？

我们提供基于数据的SEO效果承诺。根据服务套餐不同，我们承诺在约定时间内将核心关键词优化到指定排名位置，或实现约定的自然流量增长目标。所有承诺都会在服务合同中明确约定，并提供详细的KPI衡量标准。

SEO优化效果数据

基于我们服务的客户数据统计，平均优化效果如下：

+85%

自然搜索流量提升

+120%

关键词排名数量

+60%

网站转化率提升

3-6月

平均见效周期

行业案例 - 制造业

优化前：日均自然流量120，核心词无排名
优化6个月后：日均自然流量950，15个核心词首页排名
效果提升：流量增长692%，询盘量增加320%

行业案例 - 电商

优化前：月均自然订单50单，转化率1.2%
优化4个月后：月均自然订单210单，转化率2.8%
效果提升：订单增长320%，转化率提升133%

行业案例 - 教育

优化前：月均咨询量35个，主要依赖付费广告
优化5个月后：月均咨询量180个，自然流量占比65%
效果提升：咨询量增长414%，营销成本降低57%

为什么选择我们的SEO服务

专业团队

10年以上SEO经验专家带队
百度、Google认证工程师
内容创作、技术开发、数据分析多领域团队
持续培训保持技术领先

数据驱动

自主研发SEO分析工具
实时排名监控系统
竞争对手深度分析
效果可视化报告

透明合作

清晰的服务内容和价格
定期进展汇报和沟通
效果数据实时可查
灵活的合同条款

我们的SEO服务理念

我们坚信，真正的SEO优化不仅仅是追求排名，而是通过提供优质内容、优化用户体验、建立网站权威，最终实现可持续的业务增长。我们的目标是与客户建立长期合作关系，共同成长。

百度SEO

如何创建一个吸引人的画册设计网站？

0、摘要

Training

Introduction

[71]或k-NN

Related

2.2

[85]和CENet

2.3

2.4

[71]或k-NN

Technical

3.1.

ppxn2

3.2.

3.2.1

其中headi

2)前馈网络FFN由MLP和激活组成

3.2.2

主分割头

3.2.4

RangeMix

RangeUnion

RangePaste

RangeShift

4到3

3.2.5RangePost

3.3.

3.3.1

3.3.2

arctanpy

3.3.3

Experimental

4.1.2

TPi

4.1.3

[256HW][128H

4.1.4

[5]和nuScenes

[5]和ScribbleKITTI

A100/V100

[77]

4.2.3

4.2.4

4.2.5

4.2.6

4.3.

4.3.1

4.3.2

4.3.3

5、Conclusion

Appendix

Additional

6.1.

nuScenes

ScribbleKITTI

6.2.

Overlap

Multi-Head

Segmentation

[256HW][128H

到0.3m

kmix

Nunion

kshift

[0.9,

CENet

SemanticKITTI

所示STR

LiDAR

Additional

SoTA

8.06%

192、W

192

Additional

8.1.

8.2.

8.3.