BFM-TLDR

面向人形机器人无监督强化学习控制的开源开发框架,覆盖训练基础设施、行为表示、数据分布和遥操作部署。

BFM-TLDR

核心亮点

BFM-TLDR 是 RoboParty Lab 面向人形机器人无监督强化学习控制的项目方向。它关注如何让研究者更容易复现 SOTA 无监督控制算法、探索新的行为表示、适配不同机器人平台,并实现从训练到真实机器人遥操作部署的一体化开发。

  • Fast Training Infrastructure:支持 Isaac Lab 与 MJLab,并兼容单卡、多卡并行训练。
  • Beyond FB Representation:在经典 BFM-Zero / FB Representation 之外,探索 Temporal Distance Representation(TLDR)等新型行为表示。
  • Flexible Data Distribution:支持不同来源数据的混合训练和灵活配比。
  • Teleoperation Codebase & Demo:面向真实机器人部署的遥操作代码和验证方案。

项目简介

这个项目当前仍处于对外材料整理阶段,正式名称和链接还会继续确认。根据公开文案,它会是一套面向研发的开源无监督强化学习控制开发框架,覆盖训练基础设施、数据管线、算法研究和推理部署全流程。

项目的目标不是只展示一个 demo,而是降低无监督强化学习控制的研发门槛,让开发者能更快复现方法、切换机器人平台、测试新的 representation,并把策略带到真实机器人上验证。

相关工作

BFM-TLDR 和 humanoid behavior foundation model、unsupervised reinforcement learning、FB Representation、Temporal Distance Representation、motion data mixture 和 teleoperation deployment 等方向相关。

它更偏向“研究框架 + 工程验证”的结合:既服务表示学习和算法探索,也关注并行训练、数据调度、真实机器人遥操作和复杂全身动作验证。

技术方法

快速训练基础设施

框架计划支持 Isaac Lab 与 MJLab,兼容单卡和多卡并行训练。统一 codebase 不再受限于特定机器人,可以更快迁移到不同机器人形态。

超越 FB 表征

除集成经典 BFM-Zero(FB Representation)外,项目会支持多种行为表示的无监督学习研究。公开文案中已经提到 Temporal Distance Representation(TLDR)等新型表示,并将其作为探索更通用控制算法的方向。

灵活数据分布

框架会支持来自不同来源的数据混合训练和灵活数据调度。通过合理的数据分布设计,无监督强化学习不仅要学习稳定通用运动,也要支持侧手翻等高动态动作的学习。

遥操作代码库与 Demo

项目计划开放无监督强化学习控制的遥操作代码和验证方案,支持真实机器人部署。文案中提到的动作包括深蹲、半蹲、跪地、打滚、跌倒恢复以及抗外力扰动等复杂全身动作。

评估结果

结果评估会重点关注无监督控制策略在真实机器人上的动作稳定性、复杂全身动作完成度、跨机器人适配能力和数据分布对训练效果的影响。正式素材公开后,这一部分会补充视频、曲线和对比结论。

讨论

BFM-TLDR 更像 RoboParty Lab 中长期演化的基础模型和无监督控制方向。它需要持续接入数据、任务、训练工具和真实机器人验证,也适合在后续 tech report、publication 和开源 codebase 中继续展开。

结论

BFM-TLDR 的目标是把人形机器人无监督控制研究沉淀成可复用、可扩展的开源基础设施,为后续 codebase、infra、tech report 和 publication 提供统一底座。

资源链接

正式名称、项目主页、GitHub、数据集、模型权重、技术报告、论文和引用信息将在公开后补充。