在沉浸式 XR 体验中,使用少量追踪点还原全身真实动作,是实现自然交互与高度沉浸感的关键能力之一。在游戏娱乐、虚拟社交和具身智能等领域,高精度的人体运动估计技术正成为支撑高质量交互体验的核心要素。然而,市面主流的HMD设备(如PICO、Quest)往往只提供头部与双手等稀疏追踪信号(头戴和手柄6DoF的位置和姿态信号),如何从这类稀疏观测中准确还原全身动态动作,一直是一个极具挑战性的技术问题。
在即将召开的CVPR 2025上,来自PICO交互感知团队和上海交通大学裴凌课题组的研究人员联合发布了最新成果EnvPoser。该研究提出了一种环境感知的人体运动估计方法,通过引入不确定性建模与环境先验,在稀疏观测条件下实现了前所未有的全身动作重建精度与真实感。
📄 论文链接:https://arxiv.org/pdf/2412.10235
🔗 项目主页:https://xspc.github.io/EnvPoser/
1. 技术背景
🧩 相关工作
PICO交互感知团队聚焦于 PICO 的 XR 业务(MR/AR),提供人机交互、3D空间感知、3D高精人脸、人体感知与重建、3D环境感知、3D重建与生成等方向的核心技术能力,PICO交互感知团队已围绕XR场景下的稀疏追踪信号的人体动作捕捉进行了系列探索,逐步推进了从稀疏节点重建、到高效动作捕捉和多模态方法的全流程研究:
AvatarJLM(ICCV 2023)
Realistic Full-Body Tracking from Sparse Observations via Joint-Level Modeling Xiaozheng Zheng*, Zhuo Su*, Chao Wen, Zhou Xue‡, Xiaojie Jin 通过引入关节级建模策略,AvatarJLM 在仅使用3点追踪信号的条件下,实现了高还原度的人体动作估计,是EnvPoser方法结构的重要前身之一。
📄 论文链接:https://arxiv.org/pdf/2308.08855
HMD-Poser(CVPR 2024)
HMD-Poser: On-Device Real-time Human Motion Tracking from Scalable Sparse Observations Peng Dai, Yang Zhang, Tao Liu, Zhen Fan, Tianyuan Du, Zhuo Su, Xiaozheng Zheng, Zeming Li HMD-Poser 是首个支持多种稀疏组合输入(如HMD、HMD+2IMU、HMD+3IMU等)的实时全身动作恢复框架,具备良好的硬件适应性与实用性,适配XR设备端实时部署。
📄 论文链接:https://arxiv.org/pdf/2403.03561
EMHI(AAAI 2025)
EMHI: A Multimodal Egocentric Human Motion Dataset with HMD and Body-Worn IMUs Zhen Fan*, Peng Dai*, Zhuo Su*, Xu Gao, Zheng Lv, Jiarui Zhang, Tianyuan Du, Guidong Wang, Yang Zhang‡ 我们构建了EMHI,一个结合头戴设备立体图像与IMU传感器数据的大规模多模态动捕数据集,涵盖 58位被试、28.5小时数据。并提出 MEPoser 方法,验证多模态数据在提升姿态估计准确性上的潜力。
📄 论文链接:https://arxiv.org/pdf/2408.17168
🧠 新的挑战
上述工作为 XR 全身人体动捕奠定了坚实的数据基础、方法结构与设备实践经验。然而,这类方法缺乏环境理解:忽略人体与周围场景的交互限制(如墙壁、座椅等接触信息),难以推理出合理的人-物动作模式。
为此,PICO交互感知团队联合上海交通大学裴凌课题组提出了EnvPoser,裴凌课题组长期从事具身智能相关研究,着力于针对IMU设备下的人体姿态估计与多模态融合导航相关技术的研究,其中夏宋鹏程博士作为人体姿态方向负责人,长期专注于基于可穿戴设备的人体运动捕捉与人体活动识别相关研究。EnvPoser进一步将“人体-环境”关系建模纳入框架之中,使得动作估计结果不仅合理、准确,也具备物理一致性与沉浸感。
2. 方法
EnvPoser核心采用“两阶段架构”:
🔶第一阶段:不确定性感知人体初始估计
通过自回归Transformer网络,结合历史动作序列与当前稀疏观测输入,预测人体姿态及其关节级别的不确定性。引入不确定性采样机制,生成一组多假设初始动作估计,捕捉输入对应的动作多样性。
🟩 第二阶段:环境感知动作细化优化
利用VR设备/相关传感器预扫描的环境点云,EnvPoser引入两类约束进行动作优化:
-
语义约束(Semantic):通过环境与人体特征的Cross-Attention机制,对非接触区域提供上下文约束(如:避免“空中坐”)。
-
几何约束(Geometry):通过基于点云的碰撞检测(如COAP模型),限制穿模与环境冲突行为(如:手穿墙、脚陷地等)。
最终融合接触概率估计、动作判别模块,输出高精度、真实感强的全身动作序列。
🎯 贡献总结
-
提出基于环境感知的人体动作估计新框架: EnvPoser 是首个结合“不确定性建模”与“环境语义/几何约束”的两阶段全身动作估计方法,可在仅依赖头显与手柄追踪的条件下实现高质量、可信赖的全身运动重建。
-
创新性地引入关节级不确定性建模机制: 在估计人体姿态时,不再仅输出一个单一解,而是预测多种可能动作,通过不确定性引导采样提升估计多样性与合理性,解决稀疏输入下“多解性”难题。
-
首次融合环境语义与几何约束细化动作预测: 不仅考虑脚与地面接触,更通过Cross-Attention建模人体与环境间的语义联系(如椅子、墙面)与几何碰撞关系,实现上下肢协调、坐姿自然的动作还原。
-
高效泛化,兼顾精度与实用性: 训练仅需标准数据集 + 场景点云,推理阶段不需微调或多帧信息,在两大公共数据集中均超过SOTA方法,并在真实VR设备初步成功部署验证,具备强泛化能力与工程落地潜力。
3. 实验结果
📊 定量结果
我们在两个权威数据集 EgoBody 和 GIMO 上对EnvPoser进行了充分评估,并与多种SOTA方法进行对比:
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
🖼 定性结果
我们在 EgoBody 与 GIMO 数据集的典型交互场景中对比可视化结果。如下图所示,EnvPoser 在下列情况中表现更优:
-
坐姿还原:可适配不同椅子类型,姿态自然,无“空中坐”现象
-
障碍规避:显著减少腿部穿模、手部穿墙等非物理现象
-
姿势理解:在无环境提示时避免误判,如站立 vs. 蹲坐
-
复杂动作:如俯身、躺卧时动作流畅,姿态与环境相容性高
EgoBody 数据集三个测试序列的人体动作估计对比
交互细节的定性对比
实际VR场景效果示意
总结来说,EnvPoser在复杂场景下的表现尤为出色:面对弯腰、蹲坐、躺倒等姿态,能稳定结合环境信息,预测出合理接触姿态,在手部抓握与下肢接触表现上更自然,在真实VR数据测试中,显示出卓越的泛化能力与鲁棒性。
✔ 在两个数据集上均取得全指标最佳,尤其在MPJPE误差方面降低超 18%
✔ 渲染出的动作显著减少下肢漂浮、墙体穿透、错误坐姿等现象
✔ 支持真实VR设备输入,完成高精度动作估计,具备良好落地潜力
4. 总结
EnvPoser展示了在稀疏观测与复杂环境交互下,仍能实现高保真人体动作估计的潜力。通过不确定性建模+环境语义与几何约束的创新架构,EnvPoser在准确率、自然度与泛化能力上均达到新高,为下一代沉浸式交互体验提供坚实技术支撑。未来,我们将进一步扩展至多用户动态场景,结合视觉图像推理多物体接触信息,继续提升系统在真实应用中的可用性与智能性。
欢迎加入字节跳动PICO交互感知团队
交互感知团队聚焦于 PICO 的 XR 业务(MR/AR),提供人机交互、3D空间感知、3D高精人脸、人体感知与重建、3D环境感知、3D重建与生成等方向的核心技术能力,通过搭建在这些核心能力上的工程系统和解决方案,为PICO提供更自然、直观且契合直觉的交互能力,使用户能够感知现实、沉浸于现实、超越现实,助力空间智能计算平台迈入体验的新阶段。
点击下方 “阅读原文”进行简历投递~
原文始发于微信公众号(字节跳动技术团队):CVPR 2025 | EnvPoser:在环境感知下实现更真实的 XR人体动捕
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论