96SEO 2026-02-19 17:37 0
自上而下先检测人然后利用单人HPE预测每个人的关键点来构造人体姿势

自下而上先检测身体关键点然后将关键点组合成单独的姿势不知道人数
将人体看作刚体即不变形的物体通过关节和链接建立关系以模拟关节的运动。
这种模型适用于对关节运动的基本仿真。
用于定位单人图像中的人体关节位置。
当输入的图像包含多个人时通常会先对先对图像进行裁剪确保每个裁剪的部分只包含一个人通过上半身检测器
回归方法通过学习从输入图像到人体关节位置或人体模型参数的映射。
这种方法的目标是直接回归出人体关键点的坐标或其他相关参数——关键点坐标映射
ii.基于热图方法(heatmap)旨在预测身体部位和关节的近似位置通过热图来表示这些位置。
热图是一种表示其中图像上的每个点都对应于人体的某个部位颜色或强度表示该部位的置信度。
端到端的回归方法采用Soft-argmax函数将特征映射转为关节坐标。
soft-argmax是一种允许通过概率分布的加权平均来计算具有最大概率的位置的函数
network——基于transformer的级联网络用于回归人体关键点。
通过自我注意力机制self-attention
regression结构感知回归方法——基于ResNet-50的结构感知回归方法——组合姿态回归采用人体信息和姿态结构的重新参数化的基于骨骼的表示方法
Estimation——正则化流模型用于捕捉关节位置的分布。
目的是通过残差对数似然估计来找到优化的参数
策略多任务学习共享表示——学习更好的特征表示。
多任务学习通过在相关任务之间共享表示例如姿势估计和基于姿势的动作识别使模型能够更好地泛化到原始任务姿势估计。
通过在两个不同的任务之间共享表示增强模型在姿势估计任务上的性能。
假设有K个关键点则有K个热图{H1H2...HK}热图中的每个像素值Hi(x,
训练过程使用姿态估计网络通过最小化预测热图与目标热图之间的差异均方误差
与关节点坐标相比热图保留了空间位置信息同时可以使训练过程更加平滑。
Machines采用多阶段处理每个阶段的卷积基于前一阶段生成的2D置信图生成并产生逐渐精炼的身体部位位置预测
hourglass由一个编码器和一个对应的解码器组成其中编码器负责从输入图像中提取特征解码器将这些特征映射回姿态估计的输出。
网络采用自下而上和自上而下重复处理先通过自下而上的阶段进行多尺度的特征提取然后通过自上而下的阶段进行姿态的预测。
为了捕捉每个尺度的信息SHG网络由连续的池化和上采样层的步骤组成使得网络可以捕捉不同尺度的信息。
基于此进行了一些升级
Units将残差单元扩展为具有更大感受野的滤波器的侧分支来捕捉来自不同尺度的特征
Module替代了SHG中的残差单元从而增强深度CNN尺度的不变形
Network引入高分辨率子网络网络之间并行连接每个子网络负责处理不同分辨率的信息具有可以保留更多细节信息的优点。
基于此进行了一系列升级
Lite-HRNet——轻量级HRNet设计了条件通道加权块以便在通道和分辨率之间交换信息在保证了性能的同时减少了网络的计算复杂性
生成对抗网络GANs将高置信度的预测与低置信度的预测进行区分从而推断被遮挡身体部位的姿势。
GANs作为一个深度学习模型主要是通过两个网络模型之间的对抗学习实现生成新的数据样本。
GANs在HPE上的应用主要如下
1姿态生成GANs可以生成逼真的姿势这有助于提高对于人体姿态的生成精度。
2置信度估计GANs可以用于估计预测结果的置信度。
通过引入生成器和判别器的对抗学习可以使生成器更好地区分真实姿态和不合理的姿态。
生成器生成的姿势如果被判别器成功辨别为真实姿态可能会提高对这一姿态的置信度。
3遮挡部位的估计GANs被用于处理遮挡的情况即当部分身体被遮挡时模型可以通过生成对抗学习来推断被遮挡部位的姿态。
生成器生成的姿态可以帮助填充遮挡的部分从而提高遮挡区域的姿态估计精度。
PoseNet包含一个基于沙漏网络的姿势生成器和两个鉴别器用于区分合理的身体姿势和不合理的姿势
2基于对抗学习的网络其中包含两个堆叠的沙漏网络分别用作鉴别器和生成器二者共享相同的结构。
生成器估计每个关节点的位置而鉴别器则区分地面实况热图和预测热图。
3对抗性数据增强网络通过将HPE网络视为鉴别器并使用增强网络作为生成器来执行对抗性增强从而优化数据增加和网络训练。
其中生成器负责生成与原始数据相似但有一些差异的合成数据以扩充训练数据的多样性鉴别器负责评估一个给定的数据样本是真实数据还是由生成器生成的伪数据。
生成器和鉴别器之间进行对抗性学习即生成器试图生成更逼真的伪样本而鉴别器试图辨别真实样本和伪样本之间的区别。
这个对抗学习的过程促使生成器生成更加真实的样本从而提高了数据增强的效果。
对抗性数据增强网络可以帮助模型更好地处理各种变换、遮挡和复杂场景提高模型的鲁棒性和性能。
framework通过考虑人体部位之间的空间和外观一致性来发现负样本
framework通过结构化的学习方法推理人体关节之间的相关性通过捕捉人体关节信息来改善姿态估计的准确性
network结合了多尺度监督、多尺度特征融合、结构感知损失信息方案和关键点遮罩训练方法。
该网络能够在复杂场景下更好地理解人体姿态
network用于描述人体部位之间的关系学习了人体的组合模式信息能更准确的估计人体姿态
Network引入基于部位的学习策略学习特定于每个部位组的表示而不是所有部位的共享表示。
该网络结构更加灵活能够更好地适应不同部位之间的差异性
双分支CNN框架利用帧对中的颜色和运动特征来建立一个表达力强的时空模型用于进行HPE。
通过使用光流来对齐相邻帧预测的热图以利用多个帧的时间上下文信息。
光流——指在连续帧之间观察到的像素点的运动模式描述了图像中每个像素点在时间上的位移或运动方向光流可以用来表示图像序列中的物体运动轨迹。
在计算机视觉中光流通常通过分析相邻帧之间的像素值的变化来估计得到。
通过比较像素点在两个连续帧之间的亮度差异来确定他们的运动方向和轨迹。
在HPE中通过计算光流可以推断出人体在连续帧之间的运动从而提高姿势估计的准确性。
带有长短期记忆的循环结构捕捉来自不同帧的时间几何一致性和依赖性从而加快HPE网络的训练时间
关键帧提议网络用于从帧中捕获空间和时间信息并使用人体姿势插值模块来实现高效的基于视频的HPE
Module——基于视频的人体姿势估计HPE的技术可以在两个连续帧之间预测人体姿势从而实现对视频中人体运动的连续跟踪和姿势估计。
与单人HPE相比多人HPE需要确定人数和位置并需要考虑如何为不同人的关键点分组
自上而下使用现成的人物检测器将视频中的多人划分成单人将每个人用小框框框起来每个框对应一个人然后将单人姿势估计器应用于每个人框以生成多人姿势
自下而上首先定位一张图像中所有的身体关节然后将其分组为单个对象。
主要有两个步骤①
为单个身体组装关节候选即使用部分关联策略将关节候选项分组来进行姿势表示
一般来说自下而上的方法计算速度比自上而下的方法更快因为不需要分别检测每个人的姿势
在ResNet中添加几个反卷积层用于生成高分辨率表示的热力图[259]
Graph-PCNN基于图的与模型无关的仅有两个阶段的框架。
它包括一个定位子网络用于获取粗略的关键点位置以及一个图姿势细化模块用于获得经过优化的关键点定位表示[246]
多阶段网络包含一个残差步骤网络模块RSN通过高效的层内特征融合策略学习精细的局部表示以及一个姿势细化模块PRM在特征中找到局部和全局表示之间的权衡。
在多人情况下很容易出现肢体重叠的情况这样使用自上而下的方法第一步就很难实现。
为此
基于卷积姿势机的姿势估计器来估计重叠起来的人进行关节候选估计使用整数线型规划来解决关节与人员关联问题并在存在严重遮挡的情况下获得人体姿势[78]
区域多人姿势估计RMPE提高复杂场景中HPE的性能。
该框架具有三个部分对称空间变换网络用于检测不准确边界框内的单个人区域参数化姿势非最大抑制用于解决冗余检测问题和姿势引导提议生成器用于增强训练数据[55]
R-CNN人体检测器用于为候选人体创建边界框和关键点估计器使用热图偏移聚合来预测关键点位置[180]
级联金字塔网络CPN包括两部分GlobalNet一个特征金字塔网络用于预测不可见的关键点和RefineNet一个网络用于将GlobalNet的所有特征级别与关键点挖掘损失集成在一起。
该网络在预测遮挡关键点方面表现良好[29]
开发了一个遮挡姿势估计和校正模块以及一个遮挡姿势数据集以解决拥挤姿势估计中的遮挡问题[199]
提出了一个关键点对应框架利用前一帧的时间信息在遮挡场景中恢复丢失的姿势。
该网络使用自监督进行训练以改进稀疏标注视频数据集上的姿势估计结果[237]
设计了两个模块通道混洗模块和空间与通道注意力残差瓶颈以实现通道和空间信息增强以在遮挡场景下更好地进行多人HPE[219]
Transformer中的注意力机制可以捕获预测关键点的长距离依赖性和全局信息这比CNN更强大。
为此
TokenPose纯Transformer-based模型通过使用token表示捕捉约束线索和视觉外观关系[125]
HRFormer高分辨率Transformer通过将HRNet中的块与Transformer模块进行交换改善了内存和计算效率[277]
TransformerPPT:定位人体部位使模型能够高效地估计多视角姿态[150]
基于注意机制的完全端到端框架能够直接估计感知实例的身体姿势[216]
PoseWarper该网络旨在减少视频帧标记的成本通过改进帧之间的标签传播并利用稀疏注释进行训练。
DCpose用于多帧HPE旨在减轻视频帧之间的运动模糊和姿势遮挡。
主要包含三个模块姿势时序合并器、姿势残差融合器和姿势校正网络利用帧之间的时间信息进行关键点检测。
引入一个分层对齐框架用于减轻两个帧之间不对齐上下文的聚合[140]
R-CNN的身体部位检测器是最早的两阶段自底向上的方法之一。
首先检测所有身体部位的候选项然后使用整数线性规划ILP标记每个部位并通过ILP组装这些部位形成最终的姿势。
缺点是计算开销大[192]
DeeperCut通过应用更强的身体部位检测器、改进的增量优化策略和图像条件的配对项来提高性能并加快速度[76]
OpenPose使用卷积姿势机来通过热图预测关键点坐标并使用部件关联场(PAFs)将关键点与每个人进行关联。
OpenPose大大加速了自底向上的多人姿势估计的速度[16]
Fields是一组二维矢量场用于表示人体关节之间的亲和关系。
每个关节对应的
是一个矢量图每个矢量场对应一个关节到其他关节的连接。
这些矢量表示了关节之间的方向和连接强度。
PAFs
的作用是帮助将图像中的关键点例如头、肩膀、手臂等连接成完整的人体姿势。
随后又基于OpenPose通过向PAF中添加冗余边来增加关节之间的连接改进了OpenPose结构并获得了比基线方法更好的性能[315]
PifPafOpenPose在处理高分辨率图像上效果很好但是在低分辨率图像和遮挡场景下的性能较差。
为此引入PifPaf的方法使用部位强度场预测身体部位的位置和部位关联场表示关节之间的关联来解决这个问题[104]
单阶段深度网络受到OpenPose和堆叠沙漏结构的启发引入单阶段深度网络同时实现姿势检测和组别分配[170]
Network基于单阶段深度网络和HRNet引入了HRNet的扩展通过反卷积高分辨率热图来解决自底向上多人姿势估计中的尺度变化挑战[31]
PersonLab将姿势估计模块和人物分割模块组合在一起进行关键点检测和关联。
PersonLab包括短程偏移细化热图、中程偏移预测关键点和长程偏移将关键点分组成实例[179]
MultiPoseNet包括姿势残差网络可以同时进行关键点预测、人体检测和语义分割任务。
通过将这些任务结合在一起MultiPoseNet能够更全面地理解图像中的人物姿势[99]
SAHR通过自适应地优化关节的标准偏差提高了对不同人体尺度和标注模糊的容忍度[146]
HPE方法中的人物检测器可能无法准确识别重叠的人体边界。
同样自底向上的方法在遮挡场景中更难进行关键点的关联。
计算效率虽然一些方法如OpenPose可以在特定硬件上实现接近实时的处理速度但仍然难以将这些网络应用到资源受限的设备上。
实际应用如游戏、增强现实和虚拟现实需要在商用设备上使用更高效的HPE方法以提供更好的用户交互体验。
HPE数据集如COCO数据集对于常见姿势如站立、行走、奔跑来说已经足够大但对于不寻常的姿势如摔倒的训练数据仍然有限。
数据不平衡可能导致模型偏见在这些姿势上表现较差。
因此开发
Dataset马普莱克计算机科学研究所人体姿势数据集。
数据集包含了25000个姿势注释图像其中包括超过40000个不同的带有注释的身体关键点例如头部、肩膀、手肘、手腕、臀部、膝盖和脚踝等的个体。
图像涵盖了不同的场景包括室内外、日常活动、体育运动等。
它是一个多人姿势估计数据集每个图像中可能包含多个人物。
此外该数据集还提供了丰富的姿势多样性包括不同的动作、姿态和视角。
MPII中的图像适用于2D单人或多人HPE。
DatasetCOCO是一个用于目标检测、图像分割和人体姿势估计的大型公共数据集也是目前使用最广泛的大规模数据集。
它有超过33万张图片和20万个标有关键点的主题每个人都标有17个关节。
与其他许多数据集相比COCO
数据集具有更高的注释精度和更广泛的注释范围。
它不仅提供了目标检测和图像分割任务的注释信息还提供了每个人体关键点的精确位置和可见性信息。
Dataset专用于HPE的带有全身注释的数据集是对COCO数据集的扩展。
除了COCO数据集中的人体关键点注释外COCO-WholeBody数据集还提供了更全面的全身人体姿势数据包括额外的关键点如脖子、膝盖、脚踝等旨在为全身人体姿势估计算法的研究提供更丰富和详细的数据以满足对全身姿势估计精度和鲁棒性的需求。
Dataset主要用于HPE的视频中关节跟踪的大规模数据集包括在拥挤环境中的被遮挡和截断的身体部位。
PoseTrack数据集有两个版本PoseTrack2017包含514个视频序列和16219个姿势注释其中250个用于训练序列50个作为验证序列214个作为测试序列和PoseTrack2018包含1138个视频序列和153615个姿势注释其中593个用于训练170个用于验证375个用于测试。
PoseTrack中的每个人都标有15个关节和一个用于关键点可见性的附加标签
通过计算正确预测的身体部位数量占总部位数量的比例来衡量算法的准确性。
PCP
指标衡量了在预测的关键点位置与真实位置之间的距离是否在一定的阈值范围内。
具体来说对于每个关键点如果预测的关键点与真实关键点之间的距离小于某个阈值则该关键点被认为是正确的。
然后计算所有正确的关键点的比例作为
指标的取值范围通常为0到1之间表示关键点的定位准确率的比例。
值越高表示算法的性能越好。
考虑关键点的可见性只有在图像中可见的关键点才会被用于计算PDJ指标这样可以避免不可见的关键点对评估结果的影响②
PDJ在计算时考虑了关键点之间的相对位置关系。
除了单独考虑关键点的检测准确性外PDJ还考虑了关键点之间的连接关系从而更全面地评估姿态估计算法的性能④
PDJ检测关节百分比。
如果预测关节和真实关节之间的距离在躯干直径的某个分数内则预测关节被视为检测到。
计算成功检测到的关节点数量与真实关节点数量的比例即PDJ值。
(PCK)相当于改进版的PDJ。
因为PDJ的躯干直径鲁棒性较差因此PCK将头部分割长度作为归一化因子。
PCK值越高认为模型性能越好。
(AR)平均精度和平均召回率。
是用于衡量关键点检测准确性的指标。
AP真
正例数量的比值。
除此之外还有mAP平均精确率和mAR平均召回率、OKS对象关键点相似度、IoU交并比其中OKS和IoU均可用于AP或AR。
例如COCO评估指标通常使用10个OKS阈值的mAP作为评估指标
上图显示了在MPII数据集上使用PCKh0.5指标对不同2D单人姿态估计方法进行的比较结果
1回归方法回归方法可以通过端到端框架学习从输入图像到关键点坐标的非线性映射提供了一种快速学习范式和亚像素级别的预测精度。
然而由于高度非线性的问题它们通常会给出次优解
2基于热图的方法相对于回归方法基于热图的方法在2D姿态估计中更广泛使用。
这是因为热图中每个像素的概率预测可以提高关键点定位的准确性并且热图通过保留空间位置信息提供了更丰富的监督信息。
但是预测关键点的精度取决于热图的分辨率使用高分辨率热图时会增加计算成本和内存占用。
上图展示了不同2D姿态估计方法在COCO数据集的测试-开发集上的实验结果同时还总结了实验设置额外数据模型中的主干网络输入图像尺寸以及每种方法的AP值。
比较实验突显了多人姿态估计中自顶向下和自底向上方法的显著结果。
1自顶向下流程产生更好的结果因为它首先使用检测方法从图像中检测出每个个体然后使用单人姿态估计方法预测关键点的位置。
在这种情况下由于减小了背景对于关键点估计的影响更容易检测到人的关键点。
2自底向上方法通常比自顶向下方法更快因为它们直接检测所有关键点并使用关键点关联策略如亲和链接、关联嵌入和像素级关键点回归将它们分组成单个姿势。
下表说明了PoseTrack2017和PoseTrack2018数据集上最新的基于视频的工作的比较总结了测试集的详细结果。
人体姿态估计在特定应用领域数据不足需要解决领域差距问题针对某些特定应用领域如婴儿图片或艺术作品集合现有标准数据集中的训练数据不足且分布与这些特定应用领域不同导致现有的HPE方法在不同领域之间泛化能力不佳。
近期的研究趋势是利用基于GAN的学习方法来缓解领域差距但如何有效地将人体姿态知识转移以弥合领域差距仍未得到解决。
Tips领域差距问题指的是由于不同领域数据分布特征的不同使用某个领域的训练数据来训练模型然后将该模型应用于另一个领域时可能会导致模型性能下降。
这是因为在不同领域中人体的姿态变化、人体部位的形状等都有所不同导致现有的人体姿态估计方法在不同领域之间泛化能力不佳。
解决领域差距问题的方法包括增加训练数据、使用迁移学习方法、利用领域自适应技术等。
2.人体模型参数庞大需减少参数同时保持模型质量使用人体模型来建模人体网格表示时模型参数数量庞大如SMPL、SMPL-X、GHUM
GHUML、Adam等。
如何在保持重建网格质量的同时减少参数数量以及不同人的身体形状变化多样如何设计更有效的人体模型可能会利用其他信息如BMI和轮廓以实现更好的泛化。
HPE的可靠性大多数现有方法忽略了人体与3D场景的交互。
对人体-场景之间的强关系约束进行探索如人物不可能同时出现在场景中其他物体的位置。
物理约束与语义线索相结合可提供可靠和现实的3D
不够平滑连续。
应开发适当的帧级评估指标重点关注时间一致性和动作平滑度。
现有网络忽视了分辨率不匹配问题需要构建分辨率感知性的HPE网络现有训练良好的网络往往忽视了分辨率不匹配的问题这可能导致在低分辨率输入下预测人体姿态时出现不准确估计。
对抗性学习方案可能有助于构建具有分辨率感知性的HPE网络。
研究对抗攻击的防御提高HPE网络的鲁棒性视觉任务中的深度神经网络容易受到对抗攻击的影响。
微小的噪音可以显著影响HPE的性能因此研究对抗攻击的防御可以提高HPE网络的鲁棒性。
探索不同身体部位的专门神经网络架构以提高HPE的准确性和效率由于人体部位具有不同的运动模式和形状单个共享网络架构可能不适用于估计所有具有不同自由度的身体部位。
神经网络架构搜索NAS可以搜索最佳架构来估计每个身体部位也可用于发现高效的HPE网络架构以减少计算成本。
同时探索多目标NAS在HPE中的应用也具有一定价值特别是需要达到多个目标如延迟、准确性和能耗时。
作为专业的SEO优化服务提供商,我们致力于通过科学、系统的搜索引擎优化策略,帮助企业在百度、Google等搜索引擎中获得更高的排名和流量。我们的服务涵盖网站结构优化、内容优化、技术SEO和链接建设等多个维度。
| 服务项目 | 基础套餐 | 标准套餐 | 高级定制 |
|---|---|---|---|
| 关键词优化数量 | 10-20个核心词 | 30-50个核心词+长尾词 | 80-150个全方位覆盖 |
| 内容优化 | 基础页面优化 | 全站内容优化+每月5篇原创 | 个性化内容策略+每月15篇原创 |
| 技术SEO | 基本技术检查 | 全面技术优化+移动适配 | 深度技术重构+性能优化 |
| 外链建设 | 每月5-10条 | 每月20-30条高质量外链 | 每月50+条多渠道外链 |
| 数据报告 | 月度基础报告 | 双周详细报告+分析 | 每周深度报告+策略调整 |
| 效果保障 | 3-6个月见效 | 2-4个月见效 | 1-3个月快速见效 |
我们的SEO优化服务遵循科学严谨的流程,确保每一步都基于数据分析和行业最佳实践:
全面检测网站技术问题、内容质量、竞争对手情况,制定个性化优化方案。
基于用户搜索意图和商业目标,制定全面的关键词矩阵和布局策略。
解决网站技术问题,优化网站结构,提升页面速度和移动端体验。
创作高质量原创内容,优化现有页面,建立内容更新机制。
获取高质量外部链接,建立品牌在线影响力,提升网站权威度。
持续监控排名、流量和转化数据,根据效果调整优化策略。
基于我们服务的客户数据统计,平均优化效果如下:
我们坚信,真正的SEO优化不仅仅是追求排名,而是通过提供优质内容、优化用户体验、建立网站权威,最终实现可持续的业务增长。我们的目标是与客户建立长期合作关系,共同成长。
Demand feedback