96SEO 2026-02-20 05:41 0
。

最近#xff0c;很多基于学习的预测方法被提出。
他们提出了对于不同行为假设的进行概率解释的好处#xff0c;但是需要重构一个新的表示来编码地图和轨迹信息。
有趣的是#xff0c;虽然高精…前言
传统的行为预测方法是规则的基于道路结构的约束生成多个行为假设。
最近很多基于学习的预测方法被提出。
他们提出了对于不同行为假设的进行概率解释的好处但是需要重构一个新的表示来编码地图和轨迹信息。
有趣的是虽然高精度地图是高度结构化的但是目前大多数预测方法选择将高精度地图渲染成颜色编码的属性并且采用感受野有限的卷积神经网络对场景信息进行编码。
这带来一个疑问能否直接从结构化的高精度地图中学习到有意义的场景信息表示
文章提出直接从它们的矢量形式中学习一个动态交通参与者和结构化场景的统一的表示如图1的右图所示。
道路特征的地理延伸可以是一个点多边形或是曲线。
例如车道边界包含可以构成样条曲线的多个控制点人行横道是由几个点定义的多边形停止标识通过一个点来表示。
所有的地理实体都可以被近似为多个控制点定义的折线。
同时动态交通参与者也可以通过他们的运动轨迹被近似为折线。
所有的这些折线都可以表示为矢量的集合。
将每个向量视为图中的一个节点并且定义节点的特征包含每个向量的起始位置和结束位置以及其它属性包括折线ID和语义标签。
通过图神经网络高精度地图的环境信息和其他交通参与者的运动轨迹被整合到目标交通参与者节点上。
然后
发现基于节点的空间和语义邻近性来约束图的连通性是很重要的。
因此
提出了一个分层的图网络结构首先把具有相同折线ID并且具有相同语义标签的向量整合成折线特征然后所有不同的折线特征互相连通交换信息。
通过多层感知器实现局部图通过自注意力机制实现全局图的方法如图2所示。
提出的VectorNet框架。
观察到的交通参与者运动轨迹和地图特征被表示为矢量序列然后传入局部图网络中获得折线级的特征。
这些特征然后被传入一个全连接图网络中来建模高阶的交互。
计算两类损失从目标交通参与者对应的节点特征中预测其未来轨迹以及预测图网络中被掩盖的节点特征。
最后受到来自连续语音和视觉数据中采用自监督学习方法的有效性的启发在行为预测目标之外
随机掩盖属于静态场景或是动态轨迹的节点特征然后让模型重构被掩盖的特征。
直觉上认为这样可以鼓励图网络结构更好地捕捉动态交通参与者和静态环境之间的交互。
总而言之
1最先证明如何直接整合矢量化的场景信息和动态交通参与者信息来实现行为预测。
3在内部的行为预测数据集和Argoverse数据集上评估了提出的方法结果表明
的方法在减少了超过70%的模型参数以及一个数量级的运算量的情况下达到了与采用渲染鸟瞰图实现预测的方法相当甚至更好的性能。
同时
MAP数据学习一个信息丰富的上下文带动态ObjList,找到一种表示方法将HD
Map结构化数据跟感知给出的动态的ObjList做到统一表达然后基于这个统一的表达做轨迹预测道路结构静态的环境信息和动态的车辆都被表达成了vector再次表达的基础上做了GNN网络来表达各个元素间交互关系基于Conv的Encoder会丢失精度这里采用MAE做法去做表达训练增强。
dsi/dei起始点的坐标ai特征信息比如限速/车道等j是在多边形P中的下标。
Map就出现了他几乎可以提供所有道路的信息例如车道线位置种类颜色交通信号灯位置及朝向道路维修等信息。
这个部分介绍了VectorNet方法。
首先介绍如何矢量化动态交通参与者的轨迹和高精度地图。
接下来提出了层级网络它先分别聚合来自不同折线的局部特征然后在全局上整合所有轨迹和地图特征。
这个图最后将用于行为预测。
大多数高精度地图的标注是以样条曲线如车道线、封闭形状如交叉路口和点如红绿灯的形式呈现并且附带属性信息如语义标签和当前状态如交通灯的颜色道路的速度限制。
对于动态交通参与者他们的轨迹是关于时间的有向样条曲线的形式。
所有这些元素元素都可以近似为矢量序列对于地图特征
选择一个起点和方向均匀地以相同的空间距离在样条曲线上采样关键点然后把相邻的关键点串联成向量对于轨迹
可以通过固定的时间间隔0.1秒采样关键点并将它们连接成向量。
如果给定的时空间隔足够小得到的这些折线就与原始地图和轨迹十分接近。
向量化的过程是一个在连续轨迹地图标注和矢量集合之间的一对一的映射虽然后者是无序的。
这使
可以在矢量集合上构建一个可以被图神经网络编码的图表示结构。
更具体地说
其中dis和die是向量的起点和终点坐标其可以表示为2D坐标x,y或是3D坐标x,y,zai对应属性特征比如动态交通参与者的类型轨迹的时间戳或是道路特征的类型或是车道线的速度限制。
j是Pj的ID表示vi属于Pj。
将所有矢量的坐标原点确定在对应的交通参与者最后被观察到的位置。
一个将来的工作是为所有交互的交通参与者设定一个坐标原点这样他们的轨迹可以被平行地预测出来。
采用了层级的方法首先在向量层级上构建子图其中属于同一折线的所有向量节点互相连接。
假设一个折线P包含节点{v1,v2,…,vp}
其中vi(l)是子图网络第l层的节点特征。
函数genc(.)编码独立的节点特征ψagg(.)聚合所有相邻节点的特征ψrel(.)是节点vi与其相邻节点之间的关系运算。
实际上genc(.)是一个在所有节点中共享权重的多层感知器MLP。
具体来说多层感知器包含一个的全连接层然后是层归一化[3]最后是ReLU激活函数。
ψagg(.)是一个最大池化操作ψrel(.)是一个简单的拼接。
如图3所示。
堆叠多层子图网络其中每层genc(.)的权重是不一样的。
最后为了获取折线的特征
的网络和PointNet就有相同的输入和计算流程。
但是通过将排序信息嵌入到向量中基于不同的折线ID可以限制子图的连通性同时将属性编码到节点特征中
现在考虑通过一个全局交互图来建模折线节点特征{p1,p2,….,pp}上的高阶交互
其中{pi(l)}是折线节点特征的集合GNN(.)为一层图神经网络A为折线节点集合的邻接矩阵
领接矩阵A可以是启发式的例如使用节点之间的空间距离[2]。
为简单起见
其中Lt是图神经网络的层数ψtraj(.)是轨迹解码器。
为了简单起见
使用一个多层感知器作为轨迹解码器。
更多高级的解码器比如MultiPath[6]提出的基于候选轨迹的方法或是变分循环神经网络[8,26]都可以用来生成多样化的轨迹。
在实现中使用一层图神经网络这样在测试期间只需要计算目标交通参与者所对应的节点特征。
但是如果需要
其中ψnode(.)是通过多层感知器实现的节点特征解码器。
这些节点特征解码器在测试阶段是不会使用的。
回顾一下pi是一个完全连接的无序的图中的一个节点。
为了能够识别出对应的节点当它对应的节点特征被掩盖时
计算出所有属于对应节点pi的向量中的起始点坐标的最小值。
然后定义输入节点的特征为
图像补全任务和自然语言处理中获得巨大成功的BERT[11]方法息息相关它从文本数据的上下文线索中预测缺失的文本输入。
将这个训练目标推广到处理无向图中。
不像最近一些方法如[25],将泛化为预训练的特征图的无序图像补丁
其中Ltraj是对未来真值轨迹的负高斯对数似然Lnode是预测的节点特征和被掩盖的真值节点特征之间的Huber损失a1.0是一个标量用来平衡两个损失项。
预测的轨迹为每个时间步的坐标偏移并从最后一个观测位置开始。
同时
在这部分首先描述实验设置包括数据集指标和基于栅格化卷积网络的基准。
其次对分别全面地对栅格化基准方法和VectorNet做消融研究。
然后
在两个车辆行为预测的数据集上进行实验分别是Argoverse数据集[7]和
Argoverse行为预测[7]是一个用于在提供历史轨迹的情况下进行车辆行为预测的数据集。
其中有33.3万个5秒时长的轨迹序列被分成21.1万个训练样本4.1万个验证样本和8万个测试样本。
这个数据集被创造是为了挖掘有趣的和多样化的场景比如并道穿过路口等。
轨迹的采样频率为10Hz前2秒用于观测后3秒用于轨迹预测。
每个序列中都包含一个“interesting”交通参与者作为被预测主体。
除了车辆轨迹每个序列还与地图信息相关联。
数据集中测试集的未来轨迹被隐藏了。
所以除非另外说明
内部数据集是一个大规模的用于行为预测的数据集。
它包含高精度地图数据感知体系统获取的检测框和跟踪信息以及手工标注的车辆轨迹。
车辆轨迹的总数包括220万个训练样本进而55万个测试样本。
每个轨迹的长度为4秒其中前1秒作为观测的历史轨迹后3秒作为预测的未来轨迹。
轨迹是从车辆在真实世界中的行为采样得到的包括静止直行转弯变道和倒车等等并且大致保留了驾驶场景的自然分布。
在高精度地图中
dataset:简介每条轨迹5s前2s作为观测后3s作为标签。
in-house
每条轨迹4s,前1s作为观测后3s作为标签。
Argoverse运动预测是一个精心挑选的324,557个场景集合每个场景5秒用于训练和验证。
每个场景都包含以10
Hz采样的每个跟踪对象的2D鸟瞰质心3D点云可与2D鸟瞰图相互转换。
两个数据集的历史轨迹都是从感知模型来的所以存在噪声。
Argoverse
对于评价指标采用被广泛使用的计算整个轨迹的平均位移误差和t时刻的位移误差其中t分别为1秒2秒3秒。
位移用米来作为度量。
Error-平均偏移误差在时间t1.0,2.0,3.0s预测轨迹处的偏移量,单位是m
渲染N张连续帧的历史图像其中对于内部数据集N为10对于Argoverse数据集N为20。
每张图片尺寸为400×400×3其中包括地图信息和目标检测的矩形框。
400像素分别对应内部数据集中的100米和Argoverse数据集中的130米。
基于自动驾驶车辆在最后观察帧中的位置进行渲染。
自动驾驶汽车在内部数据集中被放置的坐标位置为200,320在Argoverse数据集中为200,200。
所有N帧图片被堆叠在一起构成400×400×3N的图像作为模型输入。
栅格图基准使用卷积网络来编码栅格图片其结构与IntentNet[5]大体一致。
使用ResNet-18[14]作为卷积网络的主干网。
与IntentNet不同的是
从卷积特征图中裁剪目标车辆周围的特征部分并且将裁剪后的特征图的所有空间位置进行平均池化得到一个车辆特征向量。
根据经验观察到使用更深层的ResNet模型或者根据车辆的朝向旋转特征并不能得到更好的效果。
车辆的特征向量然后被传入全连接层来预测未来的轨迹坐标。
模型用过8块GPU同步训练优化。
使用Adam[17]作为优化器并且以0.3系数衰减每隔5次训练周期衰减学习率。
数据集来说400像素代表130米对于in-house数据集来说400像素代表100米。
将N帧堆叠在一起形成一个400乘400的图像输入数据。
分别对卷积网络的感受野特征裁剪策略和栅格图的分辨率的影响进行消融研究。
感受野的影响。
由于行为预测经常需要捕捉大范围的道路信息所以卷积的感受野可能会对预测质量有很大的影响。
分别评估不同的变体来观察感受野的两个关键因素卷积核的大小和特征裁剪策略是如何影响预测性能的。
结果如表1所示。
通过比较在400*400分辨率下的大小为3,5和7的卷积核尺寸
可以发现更大的卷积核尺寸会轻微地改善性能。
但是它也会大量增加计算成本。
也比较了不同的裁剪方法通过增加裁剪尺寸或是沿着车辆轨迹裁剪。
从表1的第3行到第6行
可以看出较大的裁剪尺寸可以显著地提高性能同时沿着轨迹裁剪也能得到更好的性能。
这一观察结果证实了当把栅格化图像作为输入时感受野的重要性。
同时也体现了它的局限性一个精心设计的裁剪策略通常伴随着计算成本的增加。
进一步修改栅格图的分辨率来分析它如何影响预测性能和计算成本如表1的前三行所示。
测试三个不同的分辨率包括400×400每个像素0.25米200×200每个像素0.5米和100×100每个像素1米。
可以看出随着分辨率的提高性能也普遍得到了提高。
但是对于Argoverse数据集
可以看出将分辨率从200×200增加到400×400会导致性能的略微下降这可以解释为对于固定的3×3卷积核尺寸有效感受野的减小造成的。
表1.感受野受到卷积核的尺寸和裁剪策略控制和渲染分辨率对卷积网络基准的影响。
分别在内部数据集和Argoverse数据集上汇报了位置偏移误差DE和平均位置偏移误差ADE。
原则-尽量保证于ConvNet具有相同的输入信息。
折线子图采用3层结构全局图为一层结构MLP是64个结点。
对context
研究对于VectorNet合并地图特征和动态交通参与者的运动轨迹是否有意义。
表2中的前三行对应只使用目标车辆的历史轨迹只添加地图特征以及同时添加轨迹特征。
节点补全损失的影响。
表2的后四行比较了添加辅助的节点补全任务的影响。
观察到对于折线子图三层具有最好的性能而对于全局图只需要一层。
让多层感知器变宽并不会带来更好的性能反而会对Argoverse数据集造成不好的影响可能是因为其训练集更小。
图4显示了显示了一些预测的轨迹的可视化示例。
的VectorNet和最好的卷积网络模型。
对于内部数据集在大量减少模型参数和计算量的前提下
的模型达到了与最好的残差网络模型相当的性能。
对于Argoverse数据集
的方法明显优于最好的卷积网络在预测3秒时位置误差减少了12%。
发现内部数据集包含很多静止的车辆因为它是自然分布的驾驶场景。
这些场景可以很容易地被卷积网络解决因为它擅长捕捉局部模式。
但是Argoverse数据集中只提供“interesting”场景。
VectorNet性能好过最优的卷积网络基线大概是因为它能够通过层级图网络捕捉更大范围的环境信息。
表2.对VectorNet不同的节点输入类型和训练策略的消融研究。
这里“map”指的是来自高精度地图的输入向量“agent”指的是非目标车辆运动轨迹的输入向量。
当“Node
Compl”启用模型训练任务除了轨迹预测还包括图节点特征补全。
表3.对于折线子图和全局图的深度和宽度的消融研究。
折线子图对第3秒位置偏移误差影响最大。
现在比较卷积网络和VectorNet的计算量和模型尺寸以及它们对性能的影响。
结果如表4所示。
预测的解码器没有添加到计算量和参数量的计算中。
可以看到随着卷积核尺寸和输入图片尺寸的增加卷积网络的计算量呈二次方增加并且模型的参数量也随着卷积核呈二次方增加。
对于VectorNet计算量取决于场景中的向量节点和折线的数量。
对于内部数据集地图中折线的平均数量为17包含205个向量。
平均动态交通参与者折线数为59包含590个向量。
需要重新标准化向量坐标系和重新计算每个目标的VectorNet特征所以计算量随着预测目标的数量呈线性增加。
比较R18-k3-t-r400卷积网络中最优模型和VectorNetVectorNet明显优于卷积网络。
在计算方面对于一个交通参与者卷积网络比VectorNet增加了200倍的计算量。
考虑到场景中车辆的平均数量约为30辆VectorNet的实际计算量仍然比卷积网络小得多。
同时VectorNet的参数量为卷积网络参数量的29%。
基于比较可以发现VectorNet可以在大幅度减少计算成本的同时显著提高性能。
表4.ResNet和VectorNet的模型参数量和计算量比较。
R18-Km-cN-rS表示ResNet-18模型的卷积核尺寸为M×M裁剪尺寸为N×N输入分辨率为S×S。
表5.在Argoverse测试集上当采样的轨迹数K设为1时轨迹预测的性能。
结果取自2020/03/18的Argoverse排行榜。
设计一个层级图神经网络其中第一级聚合折线中不同矢量的信息第二级建模折线之间的高阶交互关系。
分别在大规模的内部数据集和公开的Argoverse数据集上进行实验结果表明
提出的VectorNet方法在大量减少计算量的同时其性能也要优于卷积网络方法。
并且VectorNet在Argoverse数据集上达到了目前最优水平。
下一步工作是整合VectorNet编码器和多模态轨迹解码器以生成多样化的未来轨迹。
图4.左预测结果可视化车道线为灰色非目标交通参与者为绿色目标交通参与者的真值轨迹为粉红色预测轨迹为蓝色。
右对于道路环境和其他交通参与者注意程度的可视化明亮的红色对应较高的注意分数。
可以看到当交通参与者面临多种选择时注意力机制能够将注意力集中在正确的选择上。
从几何意义看车道线包含多个控制点交叉路口是个多边形带多个顶点交通标志是一个点所有这些都可被近似–多个顶点多边形。
同样动态Obj的轨迹也可被多边形近似。
这种多边形都可以通过vector来表达。
这里是整个vector表达的底层逻辑。
有了vector表达现在要构造上下文而上下文的表达比较自然的方式也就是Graph了。
一组vector就是graph中的一个node(这个Node如何进行构建呢)。
如何采用Graph的方式在Obj动态驶入/驶出的场景下可以在已有graph上动态的增删节点然后进行推理
graph如何构造作者发现地理位置相近并且语义相近的多变性作为Node去构造Graph比较重要。
属于同一多边形并且语义相近的vector做全连接把属性编入多边形的特征中多边形间做全连接类似MAE做法随机摸出一些Node让这个NN做估计训练出来的NN能够更好的做表达Node间的交互和上下文的刻画。
怎么能让multipath跟vectornet结合关键是pre-define的anchor怎么在vectornet上表达其本质也是point既然是Point就能通过vector来表达。
最下层的子图处理统一多边形的所有vector并且vector间全连接。
vi(l)是第i层的特征genc单节点的特征提取函数agg所有邻接点特征聚合函数rel节点跟其邻接点的关系函数。
从实现角度genc是一个MLP,agg是一个maxpooling,rel简单的全连接MLP的权重在一个多边形里面是一个。
A是多边形节点的邻接矩阵通过GNN去处理第I层的节点Pil得到其交互后的特征。
A的设计比较考究可以按照距离来也可按照其他来网络学习一个出来这里简单用全连接来处理。
GNN即使简单的self-attention来实现这样的话节点个数可以动态P是所有节点的合起来的特征阵PQ/PK/PV分别是Query/Key/Value的特征分量。
将节点的特征值decode成对应的vector简单用MLP实现。
并且使用单层的attention来实现当然也可以做很复杂的。
类似MAE的做法随机抹除一部分节点通过node来轨迹本层的特征node是一个简单的MLP。
当适合的特征被屏蔽掉时使用点坐标最小的那个作为vector下标。
这里两个目标函数形式要注意一个是高斯近似一个时HuberLoss另在进入GNN前对多边形的特征做了L2正则。
观察到的智能体轨迹和地图特征被表示为向量序列并传递给局部图网络以获得折线级特征。
然后这些特征被传递给一个全连接图来建模高阶交互。
计算了两种类型的损失:从移动代理对应的节点特征预测未来轨迹以及在其特征被掩盖时预测节点特征。
向量化表示地图和移动agent(轨迹车道线采样每个点用特征向量表示)利用local
聚合每条折线的特征(全联接网络一条折线最后凝练出一个特征向量【一个点】)利用全局graph聚合各个折线特性点的相互作用(全局图就是各个结点全联接构成的图经过一层状态更新后通过解码网络得到目标对象的预测轨迹-轨迹的坐标位移)
地图特征车道线交叉路口-选定起点和方向在spline样条上等空间间隔采样连接相邻点构成向量运动轨迹-等时间间隔采样关键点构成向量。
曲线Pj向量vi的参数dsi,dei表示起始和终止点坐标ai对象类型、时间戳、道路类型、限速j是轨迹编号
折线表征-同一条折线上所有结点特征经过一个最大池化操作聚合特征
折线子图可以看作是PointNet的一般化-在PointNet中ds
折线结点{p1,p2,…,pP}构造全局图A-邻接矩阵-为了简单起见文章采用全联接图。
QKV来源于Transformer里的self-attention。
展开说如链接所示
为了使图捕获轨迹和车道线强交互在训练时隐藏一部分折线结点特征向量用模型去预测特征
ConvNet网络消融实验-卷积核、Crop尺寸、图像分辨率。
VectorNet网络消融实验-Context、Node
作为专业的SEO优化服务提供商,我们致力于通过科学、系统的搜索引擎优化策略,帮助企业在百度、Google等搜索引擎中获得更高的排名和流量。我们的服务涵盖网站结构优化、内容优化、技术SEO和链接建设等多个维度。
| 服务项目 | 基础套餐 | 标准套餐 | 高级定制 |
|---|---|---|---|
| 关键词优化数量 | 10-20个核心词 | 30-50个核心词+长尾词 | 80-150个全方位覆盖 |
| 内容优化 | 基础页面优化 | 全站内容优化+每月5篇原创 | 个性化内容策略+每月15篇原创 |
| 技术SEO | 基本技术检查 | 全面技术优化+移动适配 | 深度技术重构+性能优化 |
| 外链建设 | 每月5-10条 | 每月20-30条高质量外链 | 每月50+条多渠道外链 |
| 数据报告 | 月度基础报告 | 双周详细报告+分析 | 每周深度报告+策略调整 |
| 效果保障 | 3-6个月见效 | 2-4个月见效 | 1-3个月快速见效 |
我们的SEO优化服务遵循科学严谨的流程,确保每一步都基于数据分析和行业最佳实践:
全面检测网站技术问题、内容质量、竞争对手情况,制定个性化优化方案。
基于用户搜索意图和商业目标,制定全面的关键词矩阵和布局策略。
解决网站技术问题,优化网站结构,提升页面速度和移动端体验。
创作高质量原创内容,优化现有页面,建立内容更新机制。
获取高质量外部链接,建立品牌在线影响力,提升网站权威度。
持续监控排名、流量和转化数据,根据效果调整优化策略。
基于我们服务的客户数据统计,平均优化效果如下:
我们坚信,真正的SEO优化不仅仅是追求排名,而是通过提供优质内容、优化用户体验、建立网站权威,最终实现可持续的业务增长。我们的目标是与客户建立长期合作关系,共同成长。
Demand feedback