BFM-TLDR | RoboParty Lab

核心亮点

BFM-TLDR 是 RoboParty Lab 面向人形机器人无监督强化学习控制的项目方向。它关注如何让研究者更容易复现 SOTA 无监督控制算法、探索新的行为表示、适配不同机器人平台，并实现从训练到真实机器人遥操作部署的一体化开发。

Fast Training Infrastructure：支持 Isaac Lab 与 MJLab，并兼容单卡、多卡并行训练。
Beyond FB Representation：在经典 BFM-Zero / FB Representation 之外，探索 Temporal Distance Representation（TLDR）等新型行为表示。
Flexible Data Distribution：支持不同来源数据的混合训练和灵活配比。
Teleoperation Codebase & Demo：面向真实机器人部署的遥操作代码和验证方案。

这个项目当前仍处于对外材料整理阶段，正式名称和链接还会继续确认。根据公开文案，它会是一套面向研发的开源无监督强化学习控制开发框架，覆盖训练基础设施、数据管线、算法研究和推理部署全流程。

项目的目标不是只展示一个 demo，而是降低无监督强化学习控制的研发门槛，让开发者能更快复现方法、切换机器人平台、测试新的 representation，并把策略带到真实机器人上验证。

框架计划支持 Isaac Lab 与 MJLab，兼容单卡和多卡并行训练。统一 codebase 不再受限于特定机器人，可以更快迁移到不同机器人形态。

除集成经典 BFM-Zero（FB Representation）外，项目会支持多种行为表示的无监督学习研究。公开文案中已经提到 Temporal Distance Representation（TLDR）等新型表示，并将其作为探索更通用控制算法的方向。

框架会支持来自不同来源的数据混合训练和灵活数据调度。通过合理的数据分布设计，无监督强化学习不仅要学习稳定通用运动，也要支持侧手翻等高动态动作的学习。

项目计划开放无监督强化学习控制的遥操作代码和验证方案，支持真实机器人部署。文案中提到的动作包括深蹲、半蹲、跪地、打滚、跌倒恢复以及抗外力扰动等复杂全身动作。

结果评估会重点关注无监督控制策略在真实机器人上的动作稳定性、复杂全身动作完成度、跨机器人适配能力和数据分布对训练效果的影响。正式素材公开后，这一部分会补充视频、曲线和对比结论。

BFM-TLDR 更像 RoboParty Lab 中长期演化的基础模型和无监督控制方向。它需要持续接入数据、任务、训练工具和真实机器人验证，也适合在后续 tech report、publication 和开源 codebase 中继续展开。

BFM-TLDR 的目标是把人形机器人无监督控制研究沉淀成可复用、可扩展的开源基础设施，为后续 codebase、infra、tech report 和 publication 提供统一底座。

正式名称、项目主页、GitHub、数据集、模型权重、技术报告、论文和引用信息将在公开后补充。