第93章：人形全身 RL——动捕重定向、Teacher-Student 与多模态命令¶

元信息	值
难度	⭐⭐⭐⭐（数据管线 + PPO + 模仿学习 + 蒸馏）
预计时间	2 周（55-65 小时）
核心平台	Unitree H1 / G1、AMASS、SMPL-X、IsaacGym / IsaacLab、MuJoCo
主线	SMPL-X/AMASS → 重定向 → 物理过滤 → 全身策略训练 → 稀疏观测蒸馏

本章定位 本章面向已经学过腿足简化模型、WBC、复合机器人动力学和四足 RL 基础的读者。上一章（92）用 ZMP/DCM/TSID 构建了可解释的人形行走控制器。本章探索另一条路线：用大规模仿真和人体动作数据学习全身控制策略。读完后应能设计奖励函数、理解训练管线、诊断常见训练失败。

93.0 前置自测¶

#	问题	前置知识	合格答案关键词
1	PPO 中 GAE 的作用是什么？	足式/190	低方差与低偏差折中
2	Domain Randomization 为什么必要？	足式/190	覆盖真实参数不确定性
3	Teacher-Student 与非对称 critic 的区别是什么？	足式/190	两阶段蒸馏 vs 一阶段训练
4	SE(3) 误差为什么不能用欧拉角相减？	复合/30	流形误差、对数映射
5	人形为什么需要动捕重定向？	本章	全身动作先验和探索效率

本章目标¶

理解人形 RL 相比四足 RL 的新增难点：上体表达、双足平衡、动捕约束和高维动作。
掌握 AMASS / SMPL-X 到人形 URDF 的 shape fitting、motion fitting 与物理过滤。
理解 ExBody、HumanPlus、H2O、OmniH2O、HOVER 等路线背后的策略接口。
能区分 Teacher-Student、行为克隆、DAgger、非对称 critic 与 motion prior。
能设计 G1/H1 的 observation、action、reward、command mask 和评估指标。

93.1 人形 RL 的动机：从显式约束到数据驱动全身行为 ⭐⭐¶

经典控制留下的问题¶

第92章已经说明，ZMP/DCM/TSID 可以构建可解释的双足行走控制器。但当任务变成挥手、踢球、跳舞、遥操作、上体跟踪和下体行走同时发生时，手工设计任务栈会非常困难。每个动作都要定义 CoM、摆脚、躯干、双臂、腰部和头部的优先级。更困难的是，很多动作的"自然性"不是一个简单二次代价能写出来的。

类比：经典 WBC 就像手工编写棋谱——每种局面都需要人类专家定义最优走法。RL 则类似于让程序自己下百万局棋后涌现出棋力。WBC 在结构化、可预测的任务中表现优异，但面对高维、模糊、多目标的全身运动时，数据驱动方法的优势开始显现。

人形 RL 的价值在于从大规模仿真和人体动作数据中学习这些高维协调规律。

维度	四足速度 RL	人形全身 RL	新增挑战
动作维度	12-18	23-43+	双臂、腰、头、手
任务目标	速度跟踪	速度 + 上体/末端/动作模仿	多目标冲突
数据来源	程序化地形和命令	AMASS、视频、VR、遥操作	重定向与过滤
稳定指标	基座姿态与足端接触	DCM/ZMP 影子指标 + 上体表达	平衡与动作自然性冲突
部署风险	摔倒与打滑	摔倒、碰撞、手臂惯性扰动	全身耦合更强

本质洞察 人形 RL 不是抛弃经典控制，而是把经典控制中难以手调的优先级和动作先验转移到数据与奖励中。好的奖励项通常仍然能追溯到第92章的 CoM、角动量、接触和力矩约束。如果不理解这些物理量，训练曲线看起来上涨也可能学到危险行为。

人形 RL 的历史脉络¶

时间	里程碑	关键创新
2018	DeepMimic（Peng et al.）	动作模仿 + RL，单个动作跟踪
2021	AMP（Peng et al.）	对抗式动作先验，无需逐帧对齐
2023	ExBody（Cheng et al.）	上下体解耦，人形全身表达
2024	ExBody2、HumanPlus、HOVER	多模态命令、Transformer、统一接口
2024-25	Unitree G1/H1 实机验证	sim-to-real 在人形上的成功案例

陷阱警告 ⚠️ "端到端 RL 可以学会一切"是一个危险的思维陷阱。实际上，成功的人形 RL 系统都大量依赖领域知识——精心设计的奖励函数、合理的观测选择、物理一致的仿真环境和经过过滤的动作数据。纯粹的"随机探索"在 30+ 维动作空间中几乎不可能收敛到有用的行为。

练习 93.1.A：列出经典 WBC（第92章）中的 5 个任务权重/优先级，解释为什么这些权重难以手工调整。

练习 93.1.B：从四足 RL（足式/190）的奖励函数出发，列出人形 RL 需要新增的奖励项。每个新增项对应第92章的哪个物理量？

93.2 AMASS 与 SMPL-X：人体动作数据的参数化 ⭐⭐⭐¶

为什么不用关节角 CSV 直接训练¶

人体动作数据来自不同实验室、不同骨架、不同 marker 设置。如果直接把每个数据集的关节角当作机器人参考，关节定义和骨长都无法统一。 SMPL-X 的价值是提供统一人体网格和关节参数化，把不同来源动捕映射到同一个人体模型。

SMPL-X 的数学基础：SMPL-X 用一个可微函数 $M(\beta, \theta, \psi)$ 将体型参数 $\beta$、身体姿态 $\theta$ 和表情参数 $\psi$ 映射到一个 10475 顶点的三角网格。其中身体姿态 $\theta$ 包含 55 个关节的局部旋转（每个用轴角表示，共 $55 \times 3 = 165$ 维）。

AMASS（Archive of Motion Capture as Surface Shapes）是一个统一数据集，收集了超过 40 小时、11000 段来自 15 个不同来源的动捕数据，全部用 SMPL-X 参数化。这使得研究者可以直接使用 AMASS 的 $(\beta, \theta)$ 参数，而无需处理不同动捕系统的骨架差异。

量	含义	典型维度	用于机器人时的作用
shape $\beta$	人体体型参数	10+	匹配机器人骨长比例
pose $\theta$	各关节旋转	55 关节左右	生成关键点和末端方向
root translation	全局平移	3	给出根轨迹
body keypoints	肩肘腕髋膝踝等	按任务选择	重定向主要目标
mesh vertices	人体表面点	数千点	碰撞与视觉对齐

从人体到机器人的三个误差来源¶

误差	例子	后果	缓解
形态误差	人类手臂长于 G1 手臂	末端无法同时对齐	shape fitting 和关键点权重
关节拓扑误差	人体肩关节与机器人肩关节轴不同	IK 多解或无解	使用 SE(3) 和关键点混合目标
动力学误差	人体动作可能需要机器人无法输出的力矩	仿真中摔倒或脚滑	物理过滤和课程训练

形态误差的量化：以 Unitree G1 为例，其手臂长度约为人类手臂长度的 70%，腿长约为 85%。这意味着如果人体动作要求双手触碰前方 50 cm 处的物体，G1 的末端只能到达约 35 cm 处。盲目匹配所有关键点会导致 IK 失败或机器人过度前倾。因此需要在关键点权重中区分：下体关键点（影响平衡）的权重应高于上体关键点（影响表达）。

数据管线总览¶

AMASS 不是直接喂给 PPO 的数据。典型管线是：AMASS 动作片段 → SMPL-X 关键点 → 机器人 IK → 仿真跟踪 → 过滤可行动作 → 训练策略。每一步都可能丢失信息，因此需要可视化对比人体和机器人关键点。

AMASS (.npz) ──→ SMPL-X (β, θ) ──→ 关键点 (N×3)
                                          │
                                          ▼
         ┌──── 机器人 FK ←── 可微 IK ←── 关键点匹配
         │           │
         │           ▼
         │    仿真 rollout ──→ 物理过滤 ──→ 可行动作库
         │                                      │
         │                                      ▼
         └───────────────────────── PPO 训练 ←── 参考动作

陷阱警告 ⚠️ AMASS 数据中有大量"安静"动作（站立、坐着说话等），这些动作对机器人训练贡献很小。如果不做筛选，训练数据中 60-70% 可能是几乎静止的状态，导致策略偏向保守、不愿意移动。数据预处理时应按根速度、关键点运动幅度和接触相位对动作片段分类，保证训练集中包含足够比例的动态动作。

练习 93.2.A：从 AMASS 数据集中选择 10 段动作，用 SMPL-X 可视化并标注每段的动作类型、时长、平均根速度和接触相位。

练习 93.2.B：计算人体和 G1 机器人在肩、肘、腕、髋、膝、踝 6 个关键点上的骨长比例。讨论哪些关键点的形态差异最大，以及如何在 IK 中处理这些差异。

93.3 SMPL-X 到机器人关节的可微重定向 ⭐⭐⭐⭐¶

Shape fitting¶

第一步不是求每一帧姿态，而是先让人体模型的骨长比例接近机器人。 $$ \beta^*=\arg\min_\beta\sum_k w_k|J_k^{human}(\beta)-J_k^{robot}|^2. $$

这里 $J_k$ 是肩、肘、腕、髋、膝、踝等关键点。权重 $w_k$ 体现哪些部位更重要；对全身模仿，髋膝踝通常比手指更影响稳定。

为什么先做 shape fitting？ 如果跳过这步直接做 motion fitting，优化器需要同时处理骨长差异和姿态差异，容易陷入局部极小值。先固定一个与机器人形态匹配的 $\beta^*$，再逐帧求解姿态，问题更容易收敛。这是一种经典的"分步优化"策略：先解决低频变量（体型不变），再解决高频变量（每帧姿态变化）。

Motion fitting¶

\[ q_t^*=\arg\min_{q_t}\sum_k w_k\|T_k(q_t)-T_k^{human}(\theta_t,\beta^*)\|^2 +\lambda_v\|q_t-q_{t-1}\|^2+\lambda_a\|q_t-2q_{t-1}+q_{t-2}\|^2. \]

第一项追踪人体关键点。第二项限制速度（一阶差分），$\lambda_v$ 典型值为 $10^{-3}$。第三项限制离散加速度（二阶差分），$\lambda_a$ 典型值为 $10^{-4}$。

没有平滑项时，逐帧 IK 会产生机器人无法执行的高频抖动。这些抖动来自 IK 的非唯一性：同一个关键点位置可能对应多个关节角解，逐帧独立求解时优化器可能在不同解之间跳动。

额外约束项：除了关键点误差和平滑项，实践中通常还需要关节限位约束： $$ L_{limit} = \sum_j \text{ReLU}(q_j - q_j^{max})^2 + \text{ReLU}(q_j^{min} - q_j)^2 $$

这防止重定向结果超出机器人的物理关节范围。

可微 IK 的代码骨架¶

import torch


def retarget_loss(robot_keypoints, human_keypoints, q, q_prev, q_prev2, weights):
    """中文注释：重定向损失由关键点误差、速度平滑和加速度平滑组成。"""
    key_error = robot_keypoints - human_keypoints
    key_loss = (weights[:, None] * key_error.square()).sum()
    # 中文注释：一阶差分惩罚关节速度，防止逐帧跳动。
    vel_loss = 1e-3 * (q - q_prev).square().sum()
    # 中文注释：二阶差分惩罚关节加速度，保证力矩平滑。
    acc_loss = 1e-4 * (q - 2.0 * q_prev + q_prev2).square().sum()
    # 中文注释：关节限位的软惩罚，超限时产生二次代价。
    limit_loss = torch.relu(q.abs() - 1.0).square().sum() * 1e-2
    return key_loss + vel_loss + acc_loss + limit_loss


# 中文注释：真实工程中 robot_keypoints 来自可微 FK，human_keypoints 来自 SMPL-X。
# 使用 torch.autograd 对 q 求梯度后做梯度下降即可。

陷阱警告 ⚠️ 不要只看平均关键点误差。一个动作的平均误差很小，也可能在单脚支撑瞬间出现 5 cm 足底穿透。重定向完成后必须检查以下指标： 1. 足底高度（是否穿透地面） 2. 关节速度峰值（是否超出执行器极限） 3. 关节角限位距离（是否贴近或超出关节极限） 4. CoM 投影（是否在支撑多边形内）

练习 93.3.A：实现一个简化的可微 IK，以 3D 位置误差为目标，优化 5 个关节角。使用 PyTorch 的自动微分进行梯度下降。

练习 93.3.B：在上述 IK 中去掉速度平滑项 $\lambda_v = 0$，观察连续帧之间关节角的跳变。量化有无平滑项时的关节速度峰值差异。

93.4 物理可行性过滤：从几何动作到可执行动作 ⭐⭐⭐¶

为什么 IK 成功不等于机器人能做¶

IK 只关心几何位置。机器人在仿真中执行该轨迹时，还要满足摩擦、力矩、接触相位和动态平衡。很多人体动作几何上能重定向，但动力学上会让机器人摔倒。

如果不做物理过滤会怎样？ 不可执行的参考动作会严重破坏 RL 训练。假设 10% 的参考动作在物理上不可行（例如需要超出力矩极限的快速转体），策略在跟踪这些动作时会获得负奖励，但又被迫在这些状态附近探索。这导致： 1. 策略学会"放弃"某些动作，变得过于保守 2. 值函数对这些状态的估计不准确，影响 GAE 计算 3. 训练样本效率下降——大量计算资源浪费在不可行的 rollout 上

过滤指标	含义	常见阈值方向	失败解释
MPJPE	关键点平均误差	越小越好（< 5 cm）	动作跟踪失败
足底穿透	脚低于地面距离	接近 0（< 1 cm）	接触相位错误
关节速度峰值	执行器速度需求	低于硬件上限的 80%	动作过快
力矩峰值	逆动力学估计	低于上限并留 20% 裕度	动力学不可执行
摔倒比例	仿真 rollout 中终止比例	< 10%	策略或参考不可行

Privileged teacher 的角色¶

过滤阶段常使用拥有完整状态信息的教师策略。它可以看到真实接触、未来参考、相位、地形或精确根状态。这样的策略不一定能部署，但很适合判断某段动作是否物理可行。

过滤不是删得越多越好¶

过滤过严会让训练集只剩简单动作，策略缺少多样性。过滤过松会把大量不可执行动作放进训练，导致策略在高误差状态中浪费样本。

ExBody2 的关键发现：在构建动作数据集时，需要平衡**可行性**（feasibility）和**多样性**（diversity）。ExBody2 提出了一个自动数据集筛选方法：先用宽松阈值保留尽可能多的动作类别，再按难度分级，用课程学习逐步引入更难的动作。这种方法比简单的阈值过滤能保留 30-50% 更多的动作类型。

实践中常用分层阈值：先保留动作类别多样性，再按难度课程逐步加入。

物理过滤的实现流程¶

import numpy as np


def evaluate_motion_feasibility(env, reference_trajectory, n_rollouts=5):
    """中文注释：通过仿真 rollout 评估参考动作的物理可行性。"""
    metrics = {
        'mpjpe': [],      # 关键点平均误差
        'penetration': [], # 足底穿透深度
        'vel_peak': [],    # 关节速度峰值
        'torque_peak': [], # 力矩峰值
        'survival_rate': 0 # 存活率
    }
    survived = 0
    for _ in range(n_rollouts):
        obs = env.reset()
        episode_alive = True
        for t, ref_frame in enumerate(reference_trajectory):
            # 中文注释：用 PD 控制跟踪参考关节角。
            action = ref_frame['joint_angles']
            obs, _, done, info = env.step(action)
            if done:
                episode_alive = False
                break
            # 中文注释：记录每帧的物理指标。
            metrics['mpjpe'].append(info['keypoint_error'])
            metrics['penetration'].append(info['foot_penetration'])
            metrics['vel_peak'].append(info['joint_vel_max'])
            metrics['torque_peak'].append(info['torque_max'])
        if episode_alive:
            survived += 1
    metrics['survival_rate'] = survived / n_rollouts
    return metrics


def filter_motion_library(motions, thresholds):
    """中文注释：根据物理指标过滤动作库。"""
    feasible = []
    for motion in motions:
        m = evaluate_motion_feasibility(env, motion)
        if (np.mean(m['mpjpe']) < thresholds['mpjpe']
            and np.max(m['penetration']) < thresholds['penetration']
            and m['survival_rate'] > thresholds['survival_rate']):
            feasible.append(motion)
    return feasible

练习 93.4.A：对一段重定向动作（如走路 + 挥手），计算上述 5 个过滤指标。讨论哪些指标之间存在冲突（例如放宽速度阈值可能增加摔倒比例）。

练习 93.4.B：实现一个简单的课程过滤器。将动作按难度分为 3 级（简单步行、快走、含上体动作），在训练的不同阶段逐步引入更难的动作。

93.5 奖励工程详解：逐项分析人形 RL 的奖励设计 ⭐⭐⭐⭐¶

为什么奖励设计是人形 RL 的核心¶

在四足 RL 中，奖励函数通常比较简单：跟踪速度命令 + 正则化。在人形 RL 中，奖励函数的复杂度显著增加，因为需要同时平衡多个目标：下体稳定、上体表达、动作平滑、能耗、接触质量和步态合理性。

奖励工程的本质是把第92章中 WBC 的任务优先级从"数学约束"转化为"标量信号"。WBC 用硬约束保护高优先级任务，RL 用奖励权重做软优先级。这种转化既是人形 RL 的灵活性来源（可以学习难以手写的行为），也是其主要风险源（权重错误会导致学到危险行为）。

奖励分量逐项分析¶

以典型的人形全身 RL 奖励函数为例（综合 ExBody、ExBody2、HOVER 等方案）：

\[ r = \sum_i w_i r_i \]

各分量如下：

（1）速度跟踪 $r_{vel}$

\[ r_{vel} = \exp(-\|v_{cmd} - v_{base}\|^2 / \sigma_v^2) \]

参数	典型值	含义	调节效果
$w_{vel}$	1.0-2.0	速度奖励权重	过大导致激进加速
$\sigma_v$	0.25 m/s	奖励带宽	过小使奖励过于尖锐

物理对应：速度跟踪对应第92章中 DCM 规划的根速度输入。RL 策略学到的速度跟踪行为，在 WBC 框架中等价于由落脚规划和 DCM 反馈共同实现的功能。

（2）姿态奖励 $r_{orient}$

\[ r_{orient} = \exp(-\|e_{rpy}\|^2 / \sigma_o^2) \]

参数	典型值	含义	调节效果
$w_{orient}$	0.5-1.0	姿态奖励权重	过大使机器人僵硬
$\sigma_o$	0.2 rad	姿态误差带宽	过小限制躯干运动

姿态奖励保证躯干大致竖直。$e_{rpy}$ 通常只取 roll 和 pitch（偏航由速度命令控制）。

（3）上体关键点跟踪 $r_{upper}$

\[ r_{upper} = \exp(-\sum_k w_k \|p_k^{robot} - p_k^{ref}\|^2 / \sigma_u^2) \]

参数	典型值	含义	调节效果
$w_{upper}$	0.5-1.5	上体总权重	过大牺牲平衡换表达
$\sigma_u$	0.1 m	关键点误差带宽	过小要求不合理的精度
$w_k$（肩）	1.0	肩关键点权重	肩部影响全身动量
$w_k$（腕）	0.5	腕关键点权重	腕部细节可放松

关键设计选择 上体关键点奖励的权重必须低于下体稳定奖励。否则策略会为了手腕精度牺牲脚底接触，表现为手很准但机器人倾斜或摔倒。 ExBody 的核心创新正是这种上下体解耦：上体追踪关键点，下体只追踪速度和稳定。

（4）能耗惩罚 $r_{energy}$

\[ r_{energy} = -w_e \sum_j |\tau_j \dot q_j| \]

参数	典型值	含义	调节效果
$w_e$	0.001-0.01	能耗惩罚权重	过大使动作僵硬

能耗惩罚防止策略学到高力矩振荡行为。在四足中这个项相对不敏感，但在人形中手臂的快速运动可能产生大的力矩功率，因此需要更仔细的调节。

（5）动作平滑 $r_{smooth}$

\[ r_{smooth} = -w_s \|\mathbf{a}_t - \mathbf{a}_{t-1}\|^2 \]

参数	典型值	含义	调节效果
$w_s$	0.01-0.1	平滑惩罚权重	过大使动作迟钝

动作平滑惩罚是 sim-to-real 的关键因素。仿真中高频振荡的动作在实物上会激励结构共振，导致传感器噪声放大和关节磨损。

（6）接触奖励 $r_{contact}$

\[ r_{contact} = -w_c \sum_{foot} \|v_{foot,xy}\| \cdot \mathbb{1}_{contact} \]

参数	典型值	含义	调节效果
$w_c$	0.1-0.5	接触滑移惩罚	过大限制脚部运动

接触奖励惩罚支撑脚的水平滑动。$\mathbb{1}_{contact}$ 是接触指示函数。这个项在 WBC 中对应接触不滑约束 $J_c \dot v + \dot J_c v = 0$，但 RL 中只能用软惩罚。

（7）步态先验 $r_{gait}$

\[ r_{gait} = -w_g \sum_j \text{ReLU}(\dot q_j^2 - \dot q_{max}^2) - w_{air} \sum_{foot} h_{foot} \cdot \mathbb{1}_{swing} \]

步态先验包含关节速度限制和摆脚离地高度引导。$w_{air}$ 鼓励摆脚抬到合适高度（典型 3-8 cm），防止拖地行走。

奖励权重的诊断方法¶

训练时应当**分别记录**每个奖励分项的均值和方差。健康的训练曲线应该表现为：

分项	期望行为	异常信号
$r_{vel}$	随训练上升并稳定在 0.7-0.9	始终很低（速度跟踪失败）或过高（总是静止）
$r_{orient}$	快速上升到 0.9+	振荡或下降（躯干不稳）
$r_{upper}$	缓慢上升到 0.5-0.8	与 $r_{orient}$ 反相关（上体和稳定冲突）
$r_{energy}$	先下降后稳定	持续下降（策略越来越激进）
$r_{smooth}$	快速下降后稳定	下降后反弹（策略发现了高奖励但抖动的行为）
$r_{contact}$	快速下降后接近零	始终很大（脚底持续滑动）

陷阱警告 ⚠️ 最危险的情况是总奖励上升但某个关键分项在恶化。例如：$r_{vel}$ 和 $r_{upper}$ 持续上升，但 $r_{contact}$ 从 -0.1 恶化到 -0.5。这意味着策略学会了通过"滑动"来同时满足速度和上体跟踪，这种策略在实物上会立即摔倒。必须分项监控，不能只看总奖励。

奖励工程的系统方法论¶

奖励设计不应该是"试错法"。以下是一个系统化的奖励工程流程：

Phase 1：最小奖励集 只用存活奖励 + 速度跟踪奖励。训练至机器人能站立并缓慢移动。

Phase 2：稳定性奖励 加入姿态奖励、接触惩罚和能耗惩罚。训练至机器人能稳定行走。

Phase 3：质量奖励 加入平滑惩罚、步态先验和上体跟踪。训练至动作自然且可部署。

Phase 4：微调 根据分项监控结果，针对性调整权重。

def compute_humanoid_reward(state, action, prev_action, command, config):
    """中文注释：完整的人形 RL 奖励函数实现。"""
    rewards = {}

    # 中文注释：(1) 速度跟踪——指数核函数保证有界。
    vel_error = (command[:3] - state['base_lin_vel'][:2]).norm()
    rewards['velocity'] = config.w_vel * torch.exp(-vel_error**2 / config.sigma_vel**2)

    # 中文注释：(2) 姿态保持——只惩罚 roll 和 pitch，不惩罚 yaw。
    rp_error = state['base_rpy'][:2].norm()
    rewards['orientation'] = config.w_orient * torch.exp(-rp_error**2 / config.sigma_orient**2)

    # 中文注释：(3) 上体关键点跟踪。
    kp_error = (state['upper_keypoints'] - state['ref_keypoints']).norm(dim=-1)
    rewards['upper_body'] = config.w_upper * torch.exp(-kp_error.mean()**2 / config.sigma_upper**2)

    # 中文注释：(4) 能耗惩罚——力矩乘速度的绝对值。
    power = (state['joint_torques'] * state['joint_velocities']).abs().sum()
    rewards['energy'] = -config.w_energy * power

    # 中文注释：(5) 动作平滑——惩罚相邻时刻动作差异。
    action_diff = (action - prev_action).norm()
    rewards['smoothness'] = -config.w_smooth * action_diff**2

    # 中文注释：(6) 接触滑移——惩罚支撑脚的水平速度。
    for foot in ['left', 'right']:
        if state[f'{foot}_contact']:
            foot_slip = state[f'{foot}_foot_vel_xy'].norm()
            rewards['contact'] = rewards.get('contact', 0) - config.w_contact * foot_slip

    total = sum(rewards.values())
    return total, rewards  # 中文注释：同时返回总奖励和分项，便于监控。

本质洞察 奖励函数的设计本质上是把 WBC 的任务优先级从"硬约束/软约束的数学形式"转化为"标量信号的加权和"。 WBC 用 HQP 保证高优先级任务的精确满足，RL 用权重做近似优先级。这种转化的代价是失去了数学上的优先级保证——RL 策略可能找到"总奖励高但某个重要分项差"的解。这就是为什么分项监控如此重要。

练习 93.5.A：设计一个 G1 行走的奖励函数。包含速度跟踪、姿态、能耗和接触四个分项，给出每个分项的具体公式和超参数。

练习 93.5.B：假设训练中 $r_{vel}=0.8$, $r_{orient}=0.9$, $r_{contact}=-0.3$, $r_{smooth}=-0.05$。分析这些数值是否合理，提出改进建议。

练习 93.5.C（跨章综合题）：将 93.5 节的奖励分项与第92章的 TSID 任务做逐项对应。讨论以下问题：WBC 的 CoM 任务权重 $w_{com}=100$ 和 RL 的 $w_{vel}=1.5$ 在概念上有什么异同？为什么不能简单地用 WBC 的权重比例来设置 RL 的奖励权重？

93.6 网络架构：MLP 维度、激活、归一化与初始化 ⭐⭐⭐¶

人形 RL 的网络设计不是即插即用¶

四足 RL 中通常使用 2-3 层 MLP（如 [256, 128, 64]），配合 ELU 激活函数，这在 12 维动作空间中工作良好。人形 RL 的动作空间扩大到 23-43 维，观测空间也相应增大。网络架构的选择对训练稳定性和最终性能有显著影响。

策略网络¶

设计选择	典型方案	替代方案	权衡
隐藏层维度	[512, 256, 128]	[1024, 512, 256]	更宽的网络表达力更强但过拟合风险增加
激活函数	ELU	ReLU, GELU, Tanh	ELU 在负区域有非零梯度，训练更稳定
输出激活	无（线性）	Tanh（限幅）	Tanh 自然限制动作范围但梯度在边界处消失
初始化	Orthogonal	Xavier, Kaiming	Orthogonal 保持梯度范数，PPO 中最常用
标准差	可学习（per-action）	固定或共享	per-action 允许不同关节有不同探索强度

初始化的重要性：网络初始化决定了策略的初始行为。如果初始动作输出过大，机器人在第一步就会摔倒，导致大量负奖励充斥 buffer。正交初始化（Orthogonal initialization）配合较小的权重缩放（如 $\sigma=0.01$ 对最后一层）可以保证初始动作接近零，让机器人以默认姿态站立，然后逐步探索。

值函数网络¶

值函数网络（Critic）通常比策略网络更宽，因为它需要估计所有可能状态的回报值——这比在某个状态下选择动作更困难。

设计选择	典型方案	原因
隐藏层维度	[512, 512, 256]	值函数需要更大容量
输入	privileged 观测	训练时可以看到更多信息（非对称 critic）
输出	标量	状态值 $V(s)$
归一化	输入层归一化	不同观测维度的量纲不同

观测归一化策略¶

人形 RL 的观测向量包含关节角（$\sim$ [-3, 3] rad）、关节速度（$\sim$ [-10, 10] rad/s）、基座角速度（$\sim$ [-5, 5] rad/s）、指令速度（$\sim$ [-1, 1] m/s）等量纲差异巨大的信号。不做归一化会导致网络对大数值的输入过敏，忽略小数值但重要的输入。

方法	实现	优点	缺点
Running mean/std	$\hat o = (o - \mu_{run}) / \sigma_{run}$	自适应、无需先验	训练初期统计不稳定
Fixed normalization	$\hat o = o / s_{fixed}$	稳定、可复现	需要手工设定缩放因子
分组归一化	不同观测类型分别归一化	细粒度控制	实现复杂

实践建议：Running mean/std 在训练中最常用，但需要注意以下问题： 1. 前 100 步的统计量不可靠，应使用较大的初始方差 2. 部署时必须固定统计量（不再更新），否则策略行为会随时间漂移 3. 某些观测（如接触指示函数 $\{0, 1\}$）不应做均值归一化

class RunningMeanStd:
    """中文注释：在线计算观测的运行均值和标准差，用于归一化。"""
    def __init__(self, shape, epsilon=1e-4):
        self.mean = torch.zeros(shape)
        self.var = torch.ones(shape)
        self.count = epsilon

    def update(self, x):
        # 中文注释：使用 Welford 在线算法更新统计量。
        batch_mean = x.mean(dim=0)
        batch_var = x.var(dim=0)
        batch_count = x.shape[0]
        delta = batch_mean - self.mean
        total_count = self.count + batch_count
        self.mean += delta * batch_count / total_count
        self.var = (self.var * self.count + batch_var * batch_count
                    + delta**2 * self.count * batch_count / total_count) / total_count
        self.count = total_count

    def normalize(self, x):
        return (x - self.mean) / (self.var.sqrt() + 1e-8)

陷阱警告 ⚠️ 在 sim-to-real 部署中，使用了 running mean/std 归一化的策略必须保存训练结束时的统计量，并在部署时使用完全相同的值。如果忘记保存或加载了错误版本的统计量，策略的行为会完全不可预测——这是一个非常常见但极难调试的 bug，因为策略"看起来正常加载了"但输出完全错误。

人形 RL 的观测空间设计¶

观测空间的选择直接影响策略能学到什么。以下是典型的人形 RL 观测组成：

观测类型	维度	内容	获取方式
关节角	23-43	各关节相对角度	编码器读数
关节速度	23-43	各关节角速度	编码器差分或速度传感器
基座角速度	3	躯干角速度	IMU 陀螺仪
基座方向	3-4	重力在基座坐标系中的投影	IMU 加速度计
上一步动作	23-43	反馈上一时刻的动作	缓存
速度命令	3	$[v_x, v_y, \omega_z]$	外部命令
历史观测	$H \times n_{obs}$	最近 $H$ 帧的本体观测	滑动窗口

基座线速度的缺失：注意典型观测中不包含基座线速度。这是因为大多数人形机器人没有直接测量线速度的传感器（GPS 在室内不可用，视觉里程计有延迟）。策略需要从历史观测中隐式推断线速度。这就是为什么历史观测（或 LSTM/Transformer 编码器）对人形 RL 如此重要。

**privileged 教师观测**额外包含：

观测类型	维度	部署时不可用的原因
基座线速度	3	无直接传感器
接触力	4-8	传感器昂贵或不准确
未来参考轨迹	可变	只能看到当前命令
地形高度图	可变	需要外部感知
摩擦系数	1	未知

练习 93.6.A：实现一个简单的 MLP 策略网络（3 层，ELU 激活），输入 60 维观测，输出 23 维动作。比较 Orthogonal 和 Xavier 初始化下的初始动作分布。

练习 93.6.B：设计一个 G1 机器人的完整观测空间。列出每个观测的维度、量纲和归一化方式。计算总观测维度。

93.7 ExBody：上体 keypoint 跟踪 + 下体 velocity 跟踪 ⭐⭐⭐¶

核心放松¶

如果要求下体所有关键点严格模仿人体，机器人会被迫复现人类腿部细节。但人类和机器人腿长、脚掌、关节轴都不同，严格模仿容易破坏稳定。 ExBody（Cheng et al., 2024, "Expressive Whole-Body Control for Humanoid Robots"）的关键选择是：上体追踪表达性关键点，下体只追踪根速度和稳定行走。

这个设计选择背后有深刻的物理直觉：人形机器人的"表达性"主要体现在上半身（手势、躯干方向、头部朝向），而"稳定性"主要取决于下半身（步态、接触、CoM 位置）。两者的控制目标往往是冲突的——追求上体精确跟踪可能需要牺牲下体的稳定裕度。ExBody 的解耦设计正是为了化解这个冲突。

部分	跟踪目标	原因	风险
上体	肩肘腕、手部、躯干方向	表达动作语义	手臂扰动基座
腰部	姿态与相位相关目标	连接上下体动量	过度扭腰导致失稳
下体	根速度、站姿和接触稳定	优先保证不摔倒	腿部动作不像人体
全身	动作平滑和能耗正则	部署安全	权重过大使动作僵硬

奖励结构¶

\[ r=r_{upper-keypoint}+r_{root-vel}+r_{orientation}+r_{contact}+r_{smooth}+r_{energy}. \]

关键是不要让上体 keypoint 奖励压过下体稳定奖励。否则策略会为了手腕误差牺牲脚底接触。

与经典 WBC 的关系¶

ExBody 的奖励结构可以看作软任务栈。

ExBody 奖励项	WBC 对应任务	优先级处理方式
$r_{contact}$	接触不滑约束	RL: 惩罚权重; WBC: 硬约束
$r_{root-vel}$	CoM 速度任务	RL: 跟踪奖励; WBC: 高优先级软任务
$r_{orientation}$	躯干姿态任务	RL: 姿态奖励; WBC: 高优先级
$r_{upper-keypoint}$	末端位姿任务	RL: 关键点奖励; WBC: 低优先级
$r_{smooth}$ + $r_{energy}$	力矩正则	RL: 惩罚项; WBC: QP 正则化

区别是 RL 不显式求解 HQP，而是通过回报学习折中。

ExBody 的训练流程¶

ExBody 的训练不是一步到位的。典型流程如下：

Stage 1：下体稳定训练（无上体目标） - 只启用速度跟踪、姿态和接触奖励 - 学会稳定行走，存活率 > 95% - 时长：约 2000 万步

Stage 2：加入上体跟踪 - 在 Stage 1 的策略基础上继续训练 - 加入上体关键点奖励，初始权重较小 - 逐步增大上体权重，监控存活率不低于 85% - 时长：约 5000 万步

Stage 3：全身精调 - 同时优化所有分项 - 加入更多样的动作参考数据 - 时长：约 5000 万步

如果不分阶段会怎样？ 直接从头同时训练所有分项，策略很可能陷入"上体努力跟踪关键点但下体失去平衡"的局部最优。因为上体关键点奖励通常比稳定奖励更容易获得（手臂运动不受接触约束），策略会优先优化上体，导致下体的探索不足。

练习 93.7.A：设计一个 ExBody 风格的奖励表。给出每个分项的公式、权重和 $\sigma$ 值。训练一段视频可视化结果。

练习 93.7.B：实验分阶段训练和一步训练的差异。比较两种方案在 1 亿步后的存活率和上体跟踪精度。

93.8 AMP 与动作先验：判别器结构与训练平衡 ⭐⭐⭐⭐¶

从显式奖励到对抗式先验¶

逐帧关键点跟踪要求精确的时间对齐，这在实际中很困难——不同人完成同一个动作的时序差异很大。AMP（Adversarial Motion Priors, Peng et al. 2021）提出了一种替代方案：用判别器区分"策略生成的运动"和"参考数据集中的运动"，策略获得判别器认为"像真人"的奖励。

与 GAN 的类比：AMP 的判别器类似于 GAN 的判别器——它学习区分"真实"（参考动作）和"虚假"（策略生成的动作）。策略扮演生成器的角色，试图"欺骗"判别器。关键区别在于：GAN 的生成器直接优化判别器损失，而 AMP 的策略通过 RL 优化判别器提供的奖励。这使得 AMP 可以同时优化任务奖励（如速度跟踪）和风格奖励（像人类运动）。

判别器结构¶

\[ D_\phi: (s_t, s_{t+1}) \rightarrow [0, 1] \]

判别器输入是**状态转移对**而非单帧状态，因为单帧不包含速度信息。

设计选择	典型方案	原因
输入	$(s_t, s_{t+1})$ 的状态对	捕获运动特征而非静态姿态
网络	3 层 MLP [1024, 512]	判别器不需要太大
输出	单个标量	经 sigmoid 后表示"像真人"的概率
训练目标	LSGAN 或 WGAN-GP	WGAN-GP 训练更稳定
梯度惩罚	$\lambda_{gp} = 5-10$	防止判别器梯度爆炸

AMP 奖励与任务奖励的平衡¶

\[ r_{total} = w_{task} \cdot r_{task} + w_{amp} \cdot r_{AMP} \]

\[ r_{AMP} = \max(0, 1 - 0.25 \cdot (D(s_t, s_{t+1}) - 1)^2) \]

权重平衡的难点：$w_{amp}$ 过大会导致策略只学动作风格，忽略任务目标（如速度跟踪）。$w_{amp}$ 过小会让策略学到不自然但高效的动作。典型做法是 $w_{task} : w_{amp} = 1 : 0.5$，并在训练后期逐步降低 $w_{amp}$。

**选择性 AMP**的最新进展：2025 年的研究（Multi-Gait Learning with Selective AMP）发现，AMP 不适用于所有运动类型。对于周期性、稳定性关键的步态（如行走、爬楼梯），AMP 可以加速收敛；但对于高动态步态（如跑步、跳跃），AMP 的正则化效应会过度约束运动，导致性能下降。因此应根据动作类型选择性地使用 AMP。

陷阱警告 ⚠️ 判别器训练不稳定是 AMP 最常见的问题。典型表现是判别器快速收敛到 100% 准确率，然后策略完全停止学习（因为判别器给所有策略动作都打零分）。解决方法： 1. 使用梯度惩罚（WGAN-GP） 2. 降低判别器学习率（通常为策略学习率的 1/5） 3. 限制判别器每步只更新 1 次，而策略更新 5-10 次 4. 在判别器输入中加入噪声

AMP 与显式跟踪奖励的对比¶

维度	显式跟踪奖励	AMP 风格奖励	混合方案
时间对齐	需要精确帧对齐	不需要时间对齐	部分对齐
数据需求	每段动作需要完整参考	只需要状态分布	两种都需要
风格多样性	跟踪固定参考	从分布中采样	风格可变
调参难度	$\sigma$ 参数敏感	判别器训练不稳定	两套参数
动作自然性	取决于参考质量	取决于数据集分布	较好

何时用 AMP？ 当你有大量未标注的人体动作数据但不需要精确跟踪特定动作时。例如，要让机器人"像人类一样走路"但不需要走出和某段视频完全一样的步态。

何时用显式跟踪？ 当你需要精确复现特定动作时。例如，手语、舞蹈或特定操作任务中，动作的每一帧都有明确含义。

练习 93.8.A：实现一个简化的 AMP 判别器。输入为 $(s_t, s_{t+1})$（状态维度 30），输出标量。用一组真实轨迹和随机轨迹训练判别器，观察损失曲线。

练习 93.8.B：对比 AMP 奖励和显式关键点跟踪奖励在人形行走任务中的表现。哪种方法的动作更自然？哪种方法的速度跟踪更准确？

93.9 HumanPlus：HST 预训练与 HIT 模仿学习 ⭐⭐⭐¶

为什么引入 Transformer¶

单帧本体观测不足以理解长动作。例如挥拳、转身、踢腿都依赖相位和过去动作。 Transformer 可以把动作历史编码为上下文，学习更长时间尺度的动作先验。

HumanPlus（Fu et al., 2024）使用了两阶段框架：首先用大量动捕数据预训练一个"人体运动 Transformer"（HST），然后在机器人上微调为"人类到人形映射"（HIT）。

两阶段理解¶

阶段	输入	学习目标	输出
HST 预训练	大规模动捕片段和机器人状态	学习可跟踪的低层动作模式	具有动作先验的策略
HIT 模仿	人类示教或视觉输入	把人类意图映射到机器人动作	可遥操作/模仿策略

HST 的设计：HST 接收最近 $H$ 帧的状态作为上下文（典型 $H=10-30$），使用因果注意力机制预测下一帧的动作。上下文长度的选择需要权衡：过短则无法理解长动作的相位，过长则增加计算量且可能引入无关信息。

与 ACT 的关系¶

ACT（Action Chunking with Transformers）风格模型常输出一段未来动作块（$k$ 步），而不是单步动作。好处是动作更平滑，坏处是闭环反应可能变慢。人形上通常需要底层稳定控制频率高（50 Hz），而高层动作块频率可以低一些（10-20 Hz）。

方案	动作输出	控制频率	平滑性	反应速度
单步 MLP	$a_t$	50 Hz	依赖平滑奖励	快
ACT (k=5)	$[a_t, ..., a_{t+4}]$	10 Hz	内在平滑	慢 (50ms)
Temporal Ensemble	多次预测加权平均	50 Hz	良好	中等

Temporal Ensemble 的做法：在每个时刻，策略输出 $k$ 步动作块，但只执行第一步。下一时刻重新预测，新预测和旧预测的重叠部分做指数加权平均。这既保持了高频闭环（每步都重新规划），又获得了动作块的平滑性。

陷阱警告 ⚠️ 在人形上使用动作块时，必须确保块长度不超过关键事件的时间尺度。例如，如果单支撑到双支撑的切换发生在 50 ms 内，而动作块跨度是 100 ms，策略无法在块内对接触切换做出反应。实践中动作块不宜超过 5 步（100 ms at 50 Hz）。

练习 93.9.A：比较单步 MLP 和 ACT（k=5）在人形站立推扰恢复任务中的表现。哪种方案的恢复更快？哪种方案的动作更平滑？

93.10 H2O / OmniH2O：稀疏输入、蒸馏与 DAgger ⭐⭐⭐⭐¶

信息不对称¶

信息	训练中可用	部署时可用	处理方式
完整人体姿态	可用	通常不可用	教师使用，学生蒸馏
真实接触状态	可用	传感困难	历史观测推断
未来参考轨迹	可用	只知道短期命令	相位和历史编码
VR 头手位姿	可用	可用	稀疏命令接口
视觉 RGB	可用但噪声大	可用	感知模块或离线重建

Teacher-Student 损失¶

\[ \min_\theta\;\mathbb E_{o_s,o_t}\|\pi_s(o_s;\theta)-\pi_t(o_t)\|^2 +\lambda\,D_{KL}(\pi_s(\cdot|o_s)\|\pi_t(\cdot|o_t)). \]

$o_t$ 是教师可见的完整观测，$o_s$ 是学生部署时可见的稀疏观测。

两个损失项的作用： - 均方误差 $\|\pi_s - \pi_t\|^2$ 让学生模仿教师的**期望动作**。 - KL 散度 $D_{KL}(\pi_s \| \pi_t)$ 让学生模仿教师的**动作分布**（包括不确定性）。

只用均方误差时，学生可能在教师不确定的状态下过于自信；加入 KL 散度可以保留教师的"犹豫"，这在部署时更安全。

为什么需要 DAgger¶

直接行为克隆只在教师访问过的状态上训练。学生部署时一旦动作有小偏差，就会进入教师数据中很少出现的状态。这就是分布偏移（distribution shift）问题。

分布偏移的数学表述：设教师的状态分布为 $d_t$，学生的状态分布为 $d_s$。行为克隆在 $d_t$ 上训练，但在 $d_s$ 上测试。如果每步的误差为 $\epsilon$，$T$ 步后的累积误差可以达到 $O(\epsilon T^2)$（误差的复合效应）。DAgger 的关键思想是用学生的 $d_s$ 重新采样数据，并由教师标注正确动作，使训练分布逐步接近部署分布。

DAgger 的做法是让学生自己 rollout，再由教师给这些状态标注动作。

DAgger 的训练流程：

阶段	数据来源	数据比例	预期效果
Round 0	教师 rollout	100% 教师数据	学生学会模仿教师分布
Round 1	教师 50% + 学生 50%	混合	学生覆盖自己的偏移状态
Round 2	教师 20% + 学生 80%	以学生为主	训练分布接近部署分布
Round 3+	学生 rollout + 教师标注	几乎全部学生	收敛

为什么不从头只用学生 rollout？ 因为在训练初期，学生的策略几乎是随机的，产生的状态分布与教师的状态分布完全不同。如果只在这些随机状态上训练，学生可能学到"如何从随机状态恢复"，但忽略了"如何正确执行任务"。混合数据保证了学生既学会任务执行，又能处理自己的偏移。

import torch


def distill_step(student, teacher, batch, optimizer):
    """中文注释：学生只看稀疏观测，教师看完整观测。"""
    sparse_obs = batch['sparse_obs']
    full_obs = batch['full_obs']
    with torch.no_grad():
        teacher_action = teacher(full_obs)
    student_action = student(sparse_obs)
    # 中文注释：均方误差损失让学生模仿教师的期望动作。
    loss = (student_action - teacher_action).square().mean()
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()
    return float(loss.detach())


def dagger_collect(student, teacher, env, n_steps):
    """中文注释：DAgger 采集——用学生 rollout，教师标注。"""
    buffer = []
    obs = env.reset()
    for _ in range(n_steps):
        # 中文注释：用学生策略决定动作（部署分布采样）。
        with torch.no_grad():
            student_action = student(obs['sparse'])
        next_obs, _, done, _ = env.step(student_action)
        # 中文注释：用教师对同一状态标注"正确"动作。
        with torch.no_grad():
            teacher_action = teacher(obs['full'])
        buffer.append({
            'sparse_obs': obs['sparse'],
            'full_obs': obs['full'],
            'teacher_action': teacher_action
        })
        obs = next_obs if not done else env.reset()
    return buffer

陷阱警告 ⚠️ DAgger 的一个常见实现错误是在学生 rollout 时使用教师的动作而非学生的动作。这失去了 DAgger 的核心意义——采集学生分布下的数据。正确做法是：学生决定动作、环境用学生动作前进、教师只负责标注"如果是我会怎么做"。

蒸馏训练的超参数指南¶

参数	典型值	选择依据
学习率	1e-3 到 3e-4	比 RL 训练略高，因为监督学习更稳定
Batch size	256-1024	越大越稳定，但受 GPU 内存限制
KL 权重 $\lambda$	0.01-0.1	过大会让学生过于保守
DAgger 轮数	3-5 轮	每轮采集 10-50 万步学生数据
混合比例	逐轮减少教师数据	Round 0: 100%, Round 1: 50%, Round 2: 20%
历史帧数	5-15	太少丢失速度信息，太多增加延迟
训练 epoch	50-200	每轮 DAgger 训练至损失收敛

如何判断蒸馏是否成功？

指标	合格标准	失败信号
动作 MSE	教师动作标准差的 30% 以内	超过 50%
存活率	教师的 90% 以上	低于 70%
速度跟踪误差	教师的 1.5 倍以内	超过 2 倍
动作平滑度	与教师相当	学生明显更抖

陷阱警告 ⚠️ 蒸馏后的学生策略可能在某些"边缘状态"上表现很差——这些状态在正常 rollout 中很少出现，但在扰动后可能进入。典型的例子是"被推倒后的恢复"：教师在完整观测下可以快速恢复，但学生缺少关键信息（如精确的基座线速度）时可能无法恢复。解决方法是在 DAgger 采集阶段刻意加入推力扰动，让学生的 rollout 覆盖更多边缘状态。

练习 93.10.A：构造一个简化的 Teacher-Student 实验。教师看 10 维观测，学生只看 5 维。比较纯行为克隆和 DAgger 在 1000 步后的跟踪误差。

练习 93.10.B：在 DAgger 训练中加入推力扰动（每 5 秒施加一次 30 N 推力）。比较有无扰动下的学生策略在扰动恢复任务中的存活率。

93.11 ExBody2 与 HOVER：多模态命令空间统一 ⭐⭐⭐¶

为什么需要统一命令接口¶

一个人形平台不可能为每种控制模式单独训练和部署一套策略。速度跟踪、关节角跟踪、末端位姿跟踪、动作模仿和遥操作需要共享底层能力。统一命令空间的思想是把不同命令编码到同一观测向量中，再用 mask 指明哪些维度有效。

类比操作系统：统一命令接口就像操作系统的系统调用——不同应用（速度控制、动作模仿、遥操作）通过同一个接口请求底层服务（全身运动），底层不需要知道上层应用是什么。这种设计大幅简化了部署和维护。

Observation masking¶

\[ o=[o_{proprio},\;m\odot c,\;m], \]

$c$ 是命令向量，$m$ 是 mask。策略既看到命令值，也看到哪些命令是当前任务真正启用的。

训练时的随机 mask：为了让策略学会处理任意 mask 组合，训练时对 mask 做随机采样。例如在一个 batch 中，50% 的环境只启用速度命令，30% 启用关键点跟踪，20% 启用全部命令。这种随机 mask 训练等价于一种特殊的 domain randomization——randomize 的不是物理参数，而是任务接口。

ExBody2 的改进¶

ExBody2（Ji et al., 2024, "ExBody2: Advanced Expressive Humanoid Whole-Body Control"）在 ExBody 基础上做了以下改进：

改进点	ExBody	ExBody2	效果
动作数据集	手工筛选	自动筛选（平衡可行性和多样性）	动作种类增加 50%+
蒸馏方式	单阶段	privileged teacher + student	稀疏观测下性能更好
命令接口	速度 + 关键点	多模态 mask	一个策略多种用途
泛化性	特定动作集	预训练 + 微调	新动作只需少量微调

优点与风险¶

方面	优点	风险	缓解
部署	单策略覆盖多模式	接口复杂	固定命令规范
训练	共享动作先验	任务互相干扰	分阶段课程和采样平衡
泛化	可切换命令	mask 外推失败	随机 mask 训练
安全	减少模式切换代码	错误 mask 可能危险	命令校验和限幅

统一命令空间的具体设计¶

以 HOVER 风格的接口为例，命令向量 $c$ 和 mask $m$ 的具体结构：

命令类型	维度	内容	mask 位
速度命令	3	$[v_x, v_y, \omega_z]$	$m[0:3]$
关节角目标	$n_a$	上体或全身关节角	$m[3:3+n_a]$
末端位姿	6-12	左右手的 SE(3) 目标	$m[3+n_a:...]$
动作参考	可变	动捕关键点或动作 ID	$m[...]$

import torch
import numpy as np


def build_observation_with_mask(proprio, command_dict, active_modes):
    """中文注释：根据活跃模式构建统一观测向量。"""
    # 中文注释：初始化命令和 mask 为零。
    cmd = torch.zeros(command_dict['total_dim'])
    mask = torch.zeros(command_dict['total_dim'])

    if 'velocity' in active_modes:
        cmd[0:3] = command_dict['velocity']
        mask[0:3] = 1.0

    if 'joint_target' in active_modes:
        start = 3
        end = 3 + command_dict['n_joints']
        cmd[start:end] = command_dict['joint_target']
        mask[start:end] = 1.0

    if 'end_effector' in active_modes:
        start = 3 + command_dict['n_joints']
        end = start + 12  # 左右手各 6D
        cmd[start:end] = command_dict['ee_target']
        mask[start:end] = 1.0

    # 中文注释：拼接本体观测、masked 命令和 mask 本身。
    obs = torch.cat([proprio, mask * cmd, mask])
    return obs


def random_mask_sampling(batch_size, n_modes=3):
    """中文注释：训练时随机采样 mask 组合。"""
    masks = []
    for _ in range(batch_size):
        # 中文注释：每个环境随机启用 1-3 种命令模式。
        n_active = np.random.randint(1, n_modes + 1)
        active = np.random.choice(n_modes, n_active, replace=False)
        masks.append(active)
    return masks

陷阱警告 ⚠️ 随机 mask 训练的一个常见问题是某些 mask 组合被采样的频率过低，导致策略在这些组合上表现很差。例如"速度 + 末端位姿"同时启用的场景可能只占 10% 的采样，但在部署时可能是最常用的模式。应根据部署场景的频率分布调整 mask 采样概率。

练习 93.11.A：设计速度、关节角、末端位姿三类命令的统一观测向量。定义 mask 的维度和含义。写出一个 batch 中随机 mask 的采样代码。

练习 93.11.B：比较统一命令策略和三个独立策略在"速度跟踪"、"关节角跟踪"和"末端位姿跟踪"三个任务上的性能。哪种方案在单任务上更好？哪种在任务切换时更平滑？

93.12 2024-2025 人形 RL 前沿 ⭐⭐⭐¶

Unitree G1/H1：sim-to-real 的成功案例¶

Unitree 的 G1（29 DoF）和 H1（19 DoF）在 2024-2025 年成为人形 RL 研究的主流平台。多个研究组在这些平台上验证了 sim-to-real 迁移：

工作	平台	方法	关键结果
unitree_rl_gym	G1/H1	PPO + IsaacLab	开源训练框架
ALMI (2025)	H1-2	AMP + 运动模仿	真机稳健行走
ExBody2 (2024)	H1	Teacher-Student + 多模态	全身表达
自动奖励学习 (2024)	G1	PPO + learned reward	无手工奖励设计

Berkeley Humanoid 与学术平台¶

Berkeley Humanoid 是 UC Berkeley 设计的开源小型人形（约 70 cm 高），专为 RL 研究设计。其特点是低成本、轻量化、可快速迭代。与 G1/H1 不同，Berkeley Humanoid 更适合算法验证而非应用场景。

Figure、1X 等商业人形¶

公司	机器人	控制路线	RL 的角色
Figure AI	Figure 01/02	混合（WBC + RL）	高层技能学习
1X Technologies	NEO	RL + 视觉	家庭服务导向
Agility Robotics	Digit	MPC + WBC	RL 用于步态优化
Apptronik	Apollo	WBC 为主	RL 作为补充

趋势：2024-2025 年的一个明显趋势是**混合架构**——底层使用 WBC 或简化 MPC 保证物理安全性，上层使用 RL 学习高维技能。纯端到端 RL（从像素到力矩）仍然主要停留在仿真和学术验证阶段，商业部署中 WBC + RL 的混合方案更受青睐。

IsaacLab 训练 pipeline¶

IsaacLab（原 IsaacGym 的继承者）是 NVIDIA 推出的大规模并行仿真平台，已经成为人形 RL 训练的事实标准。其核心优势是 GPU 并行——单张 RTX 4090 可以同时运行 4096 个人形环境，每秒产生数百万步训练数据。

典型训练配置：

参数	典型值	说明
并行环境数	4096	GPU 并行
仿真频率	200 Hz	物理步进
控制频率	50 Hz	策略输出（decimation=4）
PPO batch size	4096 x 24 steps	约 10 万步
总训练步数	1-5 亿步	1-8 小时
learning rate	1e-4 到 3e-4	Adam
discount $\gamma$	0.99	标准值
GAE $\lambda$	0.95	标准值
clip ratio	0.2	PPO 标准

训练曲线解读：

阶段	步数	期望行为	异常信号
初始探索	0-500万	奖励从负到零，学会站立	奖励始终为大负数（初始化过大）
快速学习	500万-5000万	奖励快速上升，学会行走	奖励波动大（学习率过高）
精细调节	5000万-2亿	奖励缓慢上升，动作更自然	奖励震荡（奖励冲突）
收敛	2亿+	奖励稳定，各分项平衡	奖励下降（过拟合或探索衰减）

陷阱警告 ⚠️ IsaacLab 的 GPU 仿真速度很快，但这也意味着如果奖励设计有误，你会在 30 分钟内训练出一个"完美但危险"的策略——总奖励很高但某个关键分项（如接触质量）已经严重恶化。快速迭代的前提是自动化的分项奖励监控和早期停止机制。

Domain Randomization 在人形上的特殊考虑¶

四足 RL 的 domain randomization 主要覆盖质量、摩擦和电机参数。人形 RL 需要额外考虑：

随机化参数	范围	原因
躯干质量	$\pm 20\%$	人形重心高，质量变化对平衡影响更大
手臂末端负载	0-2 kg	模拟抓取或搬运
足底摩擦	[0.3, 1.5]	不同地面材质
关节阻尼	$\pm 30\%$	减速器特性差异
控制延迟	[0, 40] ms	通信和计算延迟
IMU 噪声	$\pm 0.05$ rad/s	陀螺仪漂移
推力扰动	[0, 50] N, 每 3-8 s	模拟外部碰撞
CoM 偏移	$\pm 3$ cm	建模误差

关节阻尼的特殊性：人形的关节阻尼对双足平衡有显著影响。阻尼过大会使策略依赖被动稳定性（靠阻尼耗散能量），部署到低阻尼的实物上时会失去平衡。阻尼过小则训练困难（系统更不稳定）。因此阻尼的随机化范围比四足更关键。

Sim-to-Real 的人形特有挑战¶

挑战	四足	人形	原因
接触模型	4 点接触	面接触 + 足底扭矩	人形脚掌提供扭矩而非点力
状态估计	基座姿态	基座姿态 + 线速度	人形更依赖线速度估计
安全性	摔倒后翻身	摔倒可能损坏	人形重心高、摔倒冲击大
动作空间	12 关节	23+ 关节	更多自由度、更多可能的失败模式

陷阱警告 ⚠️ 人形仿真中最常见的 sim-to-real gap 来源之一是足底接触模型。仿真通常用点接触或简化的面接触，而真实脚掌的接触力分布是非均匀的、依赖于脚掌形状和地面柔度的。这导致仿真中"稳定"的策略在实物上可能因为脚掌边缘先接触地面而失去 CoP 控制。

练习 93.12.A：在 IsaacLab 中配置一个 G1 行走任务。列出所有需要设定的参数（环境数、仿真频率、控制频率、PPO 超参数）。训练 1 亿步后绘制学习曲线。

练习 93.12.B：设计一个消融实验（ablation study）。逐个关闭 domain randomization 的参数类别（质量、摩擦、延迟、扰动），比较每种情况下策略在 perturbed 环境中的存活率。确定哪些随机化参数对 sim-to-real 最关键。

IsaacLab 训练的完整配置示例¶

以下是一个 G1 行走任务的典型配置清单（基于 IsaacLab 的 DirectRLEnvCfg 格式）：

# 中文注释：IsaacLab 人形训练配置的关键参数示例（非完整配置文件）。

class G1WalkingCfg:
    # === 仿真参数 ===
    sim_dt = 0.005          # 仿真步长 5 ms (200 Hz)
    decimation = 4          # 每 4 个仿真步输出一次动作 (50 Hz 控制)
    episode_length_s = 20   # 每个 episode 最长 20 秒
    num_envs = 4096         # GPU 并行环境数

    # === 观测空间 ===
    num_observations = 60   # 关节角(29) + 关节速度(29) + 基座角速度(3) + 重力(3) + 命令(3) - 重叠
    num_privileged_obs = 75 # 额外包含接触力(4) + 摩擦(1) + 质量(1) + 线速度(3) + ...
    num_actions = 29        # G1 的驱动关节数

    # === 奖励权重 ===
    reward_scales = {
        'velocity_tracking': 1.5,
        'orientation':       0.8,
        'contact_penalty':  -0.3,
        'energy':           -0.005,
        'smoothness':       -0.05,
        'joint_limits':     -1.0,
        'survival':          0.5,
    }

    # === Domain Randomization ===
    mass_randomization = 0.15     # ±15%
    friction_range = [0.4, 1.2]
    delay_range_ms = [0, 30]
    push_interval_s = 5
    push_force_range = [0, 40]    # N

陷阱警告 ⚠️ decimation 参数的设置直接影响策略的时间分辨率。decimation=4 配合 sim_dt=0.005 意味着策略每 20 ms 输出一次动作。如果任务需要快速反应（如推扰恢复），可能需要降低 decimation。但降低 decimation 会增加每秒的策略调用次数，要求更轻量的网络以满足实时约束。

93.13 DeepMind Soccer、Parkour 与接触技能涌现 ⭐⭐⭐¶

从跟踪到技能¶

模仿学习擅长复现已有动作。足球、起身、对抗和跑酷需要策略在交互中发现新技能。这类任务通常结合课程学习、技能分解和自博弈。

技能学习的奖励结构¶

技能	主奖励	必要正则	失败模式
起身	恢复站立姿态	关节速度与碰撞	用头或膝盖撞地
踢球	球速和方向	支撑脚稳定	踢空或摔倒
对抗行走	任务得分	姿态和能耗	过激碰撞
跑酷	越障成功	感知一致性	跳得过高或落脚不稳

与全身模仿的互补¶

模仿给策略提供动作先验，强化学习给策略提供任务改进能力。实际系统常先用动捕或程序参考预训练，再用任务奖励微调。

这种"预训练 + 微调"的范式与自然语言处理中的思路一致：大规模数据预训练（对应动捕数据预训练）提供通用能力，任务微调（对应任务奖励 RL）提供特定技能。两者缺一不可——没有预训练的 RL 探索效率极低，没有微调的预训练缺乏任务适应性。

课程学习在技能训练中的作用¶

复杂技能（如起身、跑酷）不能一开始就让机器人从零学习，需要逐步增加难度：

阶段	任务难度	训练策略
阶段 1	站立不倒	只有姿态和存活奖励
阶段 2	缓慢行走	加入速度跟踪，低速命令
阶段 3	正常行走	速度范围扩大，加入平滑正则
阶段 4	快走/小跑	高速命令，加入能耗惩罚
阶段 5	扰动恢复	加入随机推力和地形变化

课程的关键是**难度指标**的选择。常用的做法是监控存活率：当当前阶段的存活率超过 90%，自动切换到下一阶段。如果存活率低于 70%，回退到上一阶段。

练习 93.13.A：设计一个"起身"技能的课程学习方案。定义初始状态的随机化范围（从接近站立到完全躺倒），以及难度升级的触发条件。

从复杂技能的涌现到实际应用，人形 RL 还需要解决数据获取问题。下一节讨论如何通过遥操作高效收集人形任务数据。

93.14 OpenTeleVision 与遥操作数据接口 ⭐⭐¶

VR 遥操作为什么重要¶

人形需要大量真实任务数据。直接让人形自主探索厨房、仓库和办公室任务成本高且危险。 VR 遥操作把人类意图转成头、手和身体命令，是构建数据集的实用入口。

遥操作接口层级¶

接口	输入	机器人侧处理	优点	缺点
头手位姿	VR 头显和手柄	上体 IK + 下体策略	硬件简单	缺少手指细节
同构外骨骼	人体关节角	关节映射	低延迟直观	硬件定制
RGB shadow	相机图像	人体姿态估计 + 策略	无需穿戴	遮挡和延迟
语言命令	文本或语音	高层规划 + 技能库	自然交互	底层可行性难保证

数据记录要求¶

记录遥操作数据时，不只存动作。还应存机器人状态、命令、相机时间戳、接触状态、失败标记、策略版本和环境描述。否则后续很难判断失败来自感知、延迟、动力学还是示教本身。

最小数据记录规范：

字段	频率	格式	用途
关节角 $q$	50 Hz	float32 x nq	行为克隆标签
关节速度 $\dot q$	50 Hz	float32 x nv	动力学分析
关节力矩 $\tau$	50 Hz	float32 x na	力矩可行性检查
IMU 数据	200 Hz	float32 x 6	基座状态估计
VR 头手位姿	90 Hz	SE(3) x 3	命令重建
相机图像	30 Hz	JPEG/PNG	视觉策略训练
接触状态	50 Hz	bool x 4	步态相位标注
失败标记	事件	enum	数据质量过滤
配置哈希	一次	string	复现性

时间同步的重要性：不同传感器的时间戳必须对齐到同一个时钟。如果 IMU 的时间戳比关节编码器快了 20 ms，后续的动力学分析会得到错误结果。工程上常用 PTP（Precision Time Protocol）或硬件触发同步。

陷阱警告 ⚠️ 遥操作数据中最容易被忽略的是"失败标记"。如果操作员在演示中犯了错误（如撞到桌子、动作不协调），这些数据如果不标记就混入训练集，会教策略学到错误行为。宁可丢弃 30% 的数据，也不要让低质量数据污染训练。

练习 93.14.A：设计一个 VR 遥操作的数据记录系统。定义每个字段的维度、频率和存储格式。估算 1 小时遥操作产生的数据量。

常见故障与排查¶

现象	可能原因	排查步骤	修复方向
重定向可视化正常但仿真摔倒	几何 IK 没有动力学可行性	检查足底接触、速度峰值和 CoM 投影	加入物理过滤和难度课程
训练奖励上涨但动作抖动	平滑正则太弱或动作频率过低	画动作差分和关节加速度	增加 action rate 和加速度惩罚
上体很准但下体不稳	keypoint 奖励权重过高	分别统计上体和稳定奖励	降低上体权重或分阶段训练
学生蒸馏后明显退化	部署观测不足或分布偏移	比较教师与学生动作误差	增加历史观测并使用 DAgger
VR 遥操作延迟导致晃动	网络和感知时间戳未对齐	记录端到端延迟直方图	时间同步、预测滤波、低通命令
多模式策略切换异常	mask 或命令归一化错误	打印每个模式的有效命令维度	固定接口规范并做限幅
动作很像人但脚底滑	模仿奖励压过接触稳定	统计接触脚水平速度	提高 foot slip 惩罚和接触相位约束
总奖励高但实物摔倒	sim-to-real gap 或归一化不一致	对比训练/部署的观测统计量	检查 running mean 是否正确加载
AMP 判别器收敛太快	判别器容量过大或学习率过高	画判别器准确率和策略 AMP 奖励	降低判别器 lr，增加梯度惩罚

练习汇总¶

编号	题目	要求
93.1	AMASS 片段筛选	选 10 段动作，标注动作类型、时长、根速度和接触相位。
93.2	SMPL-X 到 G1 关键点拟合	实现关键点 loss，并可视化机器人与人体关键点误差。
93.3	物理过滤指标	对一段重定向动作计算速度峰值、足底穿透和关节限位距离。
93.4	奖励函数设计	设计 G1 行走的完整奖励函数并给出超参数。
93.5	ExBody 奖励复现	设计上体 keypoint + 下体 velocity 的 reward 表。
93.6	Teacher-Student 蒸馏	构造教师完整观测与学生稀疏观测的对照实验。
93.7	DAgger 分布偏移分析	实现 DAgger 采集并对比纯行为克隆。
93.8	HOVER mask 接口设计	设计速度、关节角、末端位姿三类命令的统一观测。
93.9	AMP 判别器实现	实现判别器并观察训练稳定性。
93.10	综合项目	训练一个 G1 上体动作模仿 + 下体速度跟踪的简化策略。

93.1 AMASS 片段筛选¶

目标：选 10 段动作，标注动作类型、时长、根速度和接触相位。
步骤 1：加载 AMASS 数据，提取根轨迹和关节角。
步骤 2：按运动幅度和速度对片段分类。
步骤 3：可视化每段动作的关键点轨迹。
交付物：分类表、图表和 500 字分析。

93.2 SMPL-X 到 G1 关键点拟合¶

目标：实现关键点 loss，并可视化机器人与人体关键点误差。
步骤 1：定义 6 个关键点的权重。
步骤 2：实现 shape fitting 和 motion fitting。
步骤 3：可视化误差并讨论形态差异的影响。
交付物：代码、可视化和 500 字分析。

93.3 物理过滤指标¶

目标：对一段重定向动作计算速度峰值、足底穿透和关节限位距离。
步骤 1：在仿真中 rollout 重定向轨迹。
步骤 2：记录并可视化 5 个过滤指标。
步骤 3：讨论过滤阈值的选择。
交付物：指标统计表和 500 字分析。

93.4 奖励函数设计¶

目标：设计 G1 行走的完整奖励函数并给出超参数。
步骤 1：定义速度、姿态、能耗、接触、平滑 5 个分项。
步骤 2：给出每个分项的公式和超参数值。
步骤 3：讨论各分项之间的潜在冲突。
交付物：奖励表和 500 字分析。

93.5 ExBody 奖励复现¶

目标：设计上体 keypoint + 下体 velocity 的 reward 表。
步骤 1：定义上体和下体的奖励分项。
步骤 2：给出权重和超参数。
步骤 3：讨论上下体奖励冲突的处理。
交付物：奖励配置和 500 字分析。

93.6 Teacher-Student 蒸馏¶

目标：构造教师完整观测与学生稀疏观测的对照实验。
步骤 1：定义教师和学生的观测空间。
步骤 2：实现蒸馏损失和训练循环。
步骤 3：对比教师和学生的动作误差。
交付物：代码、训练曲线和 500 字分析。

93.7 DAgger 分布偏移分析¶

目标：实现 DAgger 采集并对比纯行为克隆。
步骤 1：实现纯行为克隆训练。
步骤 2：实现 DAgger 在线采集和标注。
步骤 3：对比两种方法在 1000 步部署中的累积误差。
交付物：代码、对比图和 500 字分析。

93.8 HOVER mask 接口设计¶

目标：设计速度、关节角、末端位姿三类命令的统一观测。
步骤 1：定义三种命令的维度和范围。
步骤 2：设计 mask 的编码方式和随机采样策略。
步骤 3：实现观测拼接和验证。
交付物：接口规范文档和 500 字分析。

93.9 AMP 判别器实现¶

目标：实现 AMP 判别器并观察训练稳定性。
步骤 1：实现 WGAN-GP 损失和梯度惩罚。
步骤 2：用真实轨迹和随机轨迹训练判别器。
步骤 3：观察判别器准确率和梯度范数的变化。
交付物：代码、损失曲线和 500 字分析。

93.10 综合项目¶

目标：训练一个 G1 上体动作模仿 + 下体速度跟踪的简化策略。
步骤 1：定义完整的观测、动作和奖励。
步骤 2：在 IsaacLab 或 MuJoCo 中训练。
步骤 3：报告存活率、跟踪误差和动作平滑度。
交付物：训练代码、曲线和验收报告。

公式速查¶

编号	公式	含义	使用位置
E1	$\beta^*=\arg\min_\beta\sum_k\\|J_k^{human}(\beta)-J_k^{robot}\\|^2$	形态拟合	SMPL-X 到机器人
E2	$q_t^*=\arg\min_q\sum_k\\|T_k(q)-T_k^{human}\\|^2+\lambda\\|\Delta q\\|^2$	动作拟合	逐帧 IK
E3	$r=r_{upper}+r_{vel}+r_{contact}+r_{smooth}$	ExBody 奖励骨架	全身策略训练
E4	$L=\\|\pi_s(o_s)-\pi_t(o_t)\\|^2$	蒸馏损失	Teacher-Student
E5	$o=[o_{prop},m\odot c,m]$	命令 mask 观测	多模式策略
E6	$A_t=\sum_l(\gamma\lambda)^l\delta_{t+l}$	GAE	PPO 训练
E7	$r=\exp(-\\|e\\|^2/\sigma^2)$	有界跟踪奖励	动作模仿和速度跟踪
E8	$r_{AMP} = \max(0, 1 - 0.25(D-1)^2)$	AMP 风格奖励	对抗式动作先验

综合项目：G1/H1 全身模仿训练管线¶

阶段 1：从 AMASS 选择 20 段不同动作，按速度、转身、上体幅度和接触难度分类。
阶段 2：完成关键点重定向，并保存每帧关节角、根状态和关键点误差。
阶段 3：在仿真中执行参考动作，过滤穿透、关节限位和高误差片段。
阶段 4：训练一个上体 keypoint + 下体 velocity 策略。
阶段 5：用教师完整观测训练，再蒸馏到只含本体历史和稀疏命令的学生策略。
阶段 6：在 MuJoCo 中做 sim2sim，报告 MPJPE、存活率、接触滑移和动作平滑度。

🔧 故障排查手册¶

以下故障场景来自实际人形 RL 训练和部署中的高频问题：

症状	可能原因	排查步骤	相关章节
训练 1000 万步仍不会站立	初始化过大或奖励尺度错误	1.检查初始动作分布 2.打印各奖励分项 3.降低最后一层初始化	93.6
会走但动作像机器人不像人	AMP 或模仿奖励太弱	1.增加 AMP 权重 2.检查参考数据质量 3.可视化判别器准确率	93.8
实物上晃动但仿真稳定	观测归一化未正确加载	1.打印训练和部署的 running mean 2.检查统计量版本 3.固定并验证	93.6
蒸馏后学生在转弯时摔倒	转弯需要角速度信息但学生缺乏	1.对比教师和学生在转弯时的动作 2.增加历史帧数 3.加入 DAgger 转弯数据	93.10
多模态策略在切换时抖动	mask 切换导致命令突变	1.画 mask 切换前后的命令值 2.加命令平滑插值 3.检查归一化一致性	93.11

调试原则：人形 RL 问题的排查应遵循"分项排查"的原则——先确定是哪个奖励分项导致了问题（通过分别禁用各分项做消融），再深入分析该分项的内部逻辑。不要一上来就改全部权重，因为这会把一个已知的问题变成多个未知的问题。

本章小结¶

知识点	核心内容	所在章节
人形 RL 动机	把 WBC 的手工优先级转移到数据驱动学习	93.1
AMASS/SMPL-X	统一人体动作数据的参数化	93.2
可微重定向	shape fitting + motion fitting + 平滑约束	93.3
物理过滤	从几何可行到动力学可执行	93.4
奖励工程	逐项分析奖励分量和超参数	93.5
网络架构	MLP 维度、归一化、初始化	93.6
ExBody	上下体解耦的奖励设计	93.7
AMP	对抗式动作先验和判别器平衡	93.8
HumanPlus	Transformer 预训练和模仿学习	93.9
Teacher-Student/DAgger	稀疏观测蒸馏和分布偏移	93.10
多模态命令	统一命令空间和 mask 设计	93.11
2024-25 前沿	Unitree G1/H1、IsaacLab pipeline	93.12

人形 RL 与经典 WBC 的融合——回顾与前瞻¶

本章和第92章构成了人形全身控制的两条互补路线。在实际工程中，这两条路线正在融合：

混合架构的三种模式¶

模式 A：RL 策略 + WBC 安全层 RL 策略输出关节角目标，WBC 作为安全层检查这些目标是否满足物理约束（力矩限幅、接触稳定性）。如果不满足，WBC 修正目标。这种模式的优点是 RL 策略可以自由探索，WBC 提供安全保障。

模式 B：RL 上层 + WBC 下层 RL 策略输出 CoM 目标、末端位姿或动量参考，WBC 将这些高层目标转化为关节力矩。这种模式保留了 WBC 的精确任务执行能力，同时让 RL 处理高层决策。

模式 C：RL 初始化 + WBC 微调 先用 RL 训练一个粗略策略，然后用 WBC 的分析工具（ZMP 裕度、力矩分布等）诊断策略的弱点，针对性地微调奖励函数或增加约束。

模式	RL 负责	WBC 负责	适用场景
A	全身动作规划	安全约束检查	高动态、多样化动作
B	高层目标生成	低层力矩计算	精确操作 + 移动
C	初始策略搜索	事后分析与修正	研究和原型开发

本质洞察 经典 WBC 和 RL 不是对立关系，而是同一个硬币的两面。 WBC 提供了物理约束的精确数学表达——这些约束不会因为使用 RL 就消失。 RL 提供了在约束满足前提下的最优行为搜索能力——这是手工调参无法企及的。未来的人形控制系统会越来越多地把两者结合：RL 学习"做什么"，WBC 保证"安全地做"。

延伸阅读¶

论文/资源	难度	内容
Peng et al., "DeepMimic: Example-Guided Deep RL of Physics-Based Character Skills", SIGGRAPH 2018	⭐⭐⭐	动作模仿 + RL 的开创性工作
Peng et al., "AMP: Adversarial Motion Priors for Stylized Physics-Based Character Animation", SIGGRAPH 2021	⭐⭐⭐⭐	对抗式动作先验
Cheng et al., "Expressive Whole-Body Control for Humanoid Robots", 2024	⭐⭐⭐	ExBody 上下体解耦
Ji et al., "ExBody2: Advanced Expressive Humanoid Whole-Body Control", 2024	⭐⭐⭐⭐	多模态命令、自动数据集筛选
Fu et al., "HumanPlus: Humanoid Shadowing and Imitation from Humans", 2024	⭐⭐⭐	Transformer + 模仿学习
He et al., "OmniH2O: Universal and Dexterous Human-to-Humanoid Whole-Body Teleoperation and Learning", 2024	⭐⭐⭐⭐	稀疏输入蒸馏
IsaacLab 文档：isaac-sim.github.io/IsaacLab	⭐⭐	训练 pipeline 参考
unitree_rl_gym：github.com/unitreerobotics/unitree_rl_gym	⭐⭐	G1/H1 训练代码
Radosavovic et al., "Real-World Humanoid Locomotion with RL", Science Robotics 2024	⭐⭐⭐	实物人形 RL 验证
awesome-humanoid-robot-learning：github.com/YanjieZe/awesome-humanoid-robot-learning	⭐	论文汇总列表

术语对照表¶

本章术语	英文	其他常见名称	出处
动捕重定向	Motion Retargeting	Motion Mapping
形态拟合	Shape Fitting	Body Calibration	SMPL
物理过滤	Physics Filtering	Feasibility Check
教师-学生	Teacher-Student	Privileged-Deployment
行为克隆	Behavioral Cloning (BC)	Imitation Learning (IL)
对抗式动作先验	Adversarial Motion Prior (AMP)	Style Reward	Peng 2021
命令掩码	Command Masking	Task Conditioning	HOVER
分布偏移	Distribution Shift	Covariate Shift	DAgger

93 巩固卡片 01：AMASS¶

问题：为什么需要统一人体数据？
直觉：不同动捕骨架需要共同参数化。
数学抓手：SMPL-X pose 与 shape
工程接口：数据预处理
易错判断：不能直接把人体角度给机器人。
自测动作：可视化关键点。

93 巩固卡片 02：重定向¶

问题：IK 成功为何还不够？
直觉：几何可达不代表动力学可执行。
数学抓手：关键点 loss + 平滑项
工程接口：motion fitting
易错判断：忽略速度会抖动。
自测动作：检查关节速度。

93 巩固卡片 03：物理过滤¶

问题：为什么要删除片段？
直觉：不可执行参考会污染训练。
数学抓手：rollout error 阈值
工程接口：数据筛选
易错判断：删太多会降低多样性。
自测动作：统计动作类别覆盖。

93 巩固卡片 04：ExBody¶

问题：为什么下体不严格模仿？
直觉：稳定优先于腿部外观。
数学抓手：$r_{upper}+r_{vel}$
工程接口：reward design
易错判断：上体权重过高会摔。
自测动作：分项奖励监控。

93 巩固卡片 05：蒸馏¶

问题：学生为什么会退化？
直觉：观测少且分布会偏移。
数学抓手：$\|\pi_s-\pi_t\|^2$
工程接口：Teacher-Student
易错判断：只做离线克隆不够。
自测动作：执行 DAgger 采样。

93 巩固卡片 06：Mask¶

问题：如何一个策略多模式？
直觉：命令值和有效位一起输入。
数学抓手：$m\odot c$
工程接口：HOVER 风格接口
易错判断：mask 错会危险。
自测动作：单元测试命令维度。

93.15 WholebodyVLA 与基础模型在人形控制中的角色 ⭐⭐⭐⭐¶

大模型驱动的全身 Loco-Manipulation¶

2025-2026 年的一个重要趋势是将 Vision-Language-Action（VLA）模型与人形全身控制结合。WholebodyVLA（ICLR 2026）提出了一种统一的潜在空间 VLA 架构，能够同时处理行走和操作。

传统方案将视觉感知、语言理解和动作生成分成独立模块。WholebodyVLA 的创新在于在一个统一的潜在空间中编码视觉观测、语言指令和全身动作：

\[\mathbf{z}_t = \text{Encoder}(\mathbf{I}_t, \mathbf{l}, \mathbf{o}_{prop})\]

\[\mathbf{a}_t = \text{Decoder}(\mathbf{z}_t)\]

其中 $\mathbf{I}_t$ 是视觉输入，$\mathbf{l}$ 是语言指令，$\mathbf{o}_{prop}$ 是本体感觉观测，$\mathbf{a}_t$ 是全身动作。

VLA 与底层控制器的频率分工¶

VLA 模型的推理频率受限于视觉 Transformer 的计算量，通常只有 5-15 Hz。人形机器人需要 50-100 Hz 的控制频率来维持双足平衡。因此 VLA 不能直接驱动关节。

层级	频率	输出	职责
VLA	5-15 Hz	全身动作意图（潜在空间）	语义理解和长期规划
低层策略（RL/WBC）	50-100 Hz	关节位置目标	物理可行性和平衡
PD 控制	500-1000 Hz	关节力矩	电机级跟踪

VLA 的输出可以是关节角目标（需要低层策略保证安全）、末端位姿目标（需要全身 IK）或动作潜在向量（需要解码器）。每种接口的安全性和泛化性不同。

挑战：安全保证¶

VLA 模型本质上是一个大规模神经网络，其输出的安全性无法通过训练保证。在人形上的部署需要：

输出限幅：VLA 输出的关节角或位姿目标必须经过限幅和可行性检查。
低层安全滤波：底层 WBC 或 RL 策略作为安全层，拒绝不可行目标。
置信度监控：VLA 的输出置信度低时，系统应降速或进入保持模式。
回退策略：VLA 推理超时时，低层策略应能独立维持基本行走。

本质洞察：VLA 不能替代底层控制器，正如自然语言处理模型不能替代编译器。VLA 处理的是"做什么"的语义问题，底层控制器处理的是"怎样安全地做"的物理问题。两者的边界不在于计算能力，而在于信息类型——语义信息和物理约束需要不同的推理机制。

练习 93.15.A：设计一个"VLA + RL WBC"的人形系统架构。画出数据流图，标注每个模块的频率、输入输出维度和超时处理。

练习 93.15.B：讨论 VLA 直接输出关节角 vs 输出末端位姿目标两种接口的优缺点。哪种接口在人形 loco-manipulation 中更安全？

93.16 全身接触技能的强化学习 ⭐⭐⭐⭐¶

从非接触到接触丰富的全身动作¶

前面章节讨论的人形 RL 主要关注非接触或轻接触任务：行走、挥手、上体表达。真实世界的人形任务大量涉及接触丰富的场景：开门（手与门把手接触）、搬箱子（双手与箱子接触）、靠墙站立（手和背与墙接触）、爬楼梯（脚与不同高度台阶接触）。

接触丰富的全身 RL 面临三个新挑战：

挑战 1：接触模式的组合爆炸

人形的潜在接触点包括双脚、双手、膝盖、臀部和背部。每个点可能接触或不接触，接触力的方向也不同。接触模式的数量指数增长：

\[N_{\text{modes}} = \prod_{i=1}^{n_{\text{contact}}} |\mathcal{M}_i|\]

对于双脚（2 种模式） + 双手（3 种模式：自由、接触、抓取） + 膝盖（2 种），总共 $2 \times 2 \times 3 \times 3 \times 2 \times 2 = 144$ 种模式。不同模式下的动力学约束完全不同。

挑战 2：仿真接触模型的不准确性

接触丰富的任务对仿真器的接触模型提出了更高要求。手指抓取门把手时的接触力分布、膝盖跪地时的摩擦特性、背靠墙壁时的面接触力——这些在当前仿真器中都只是粗略近似。

接触类型	仿真精度	sim-to-real gap
脚底平面接触	中等	小-中
手指抓取	低	大
膝盖跪地	低	大
面接触（背靠墙）	很低	很大

挑战 3：奖励设计的复杂性

接触丰富任务的奖励函数需要同时考虑：

任务进度（如门打开的角度）
接触质量（如手与把手的抓握稳定性）
全身平衡（如开门时不能前倾过多）
力的安全性（如不能对门把手施加过大扭矩）

这些目标之间存在强耦合——用力推门会增加前倾风险，放松抓握会降低任务进度。

接触感知的观测设计¶

接触丰富的 RL 需要在观测中加入接触相关信息：

观测类型	维度	来源	作用
接触力	$3 \times n_c$	力传感器或估计	知道当前受力
接触法向	$3 \times n_c$	几何计算	知道约束方向
接触标志	$n_c$	阈值检测	离散模式信息
物体状态	6-12	视觉或编码器	任务进度
手指关节角	10-20	编码器	抓取状态

对于教师策略（privileged），可以额外访问精确的接触力和物体动力学参数。学生策略通过历史观测和力估计近似这些信息。

接触奖励的层级设计¶

\[r_{\text{contact\_task}} = w_1 r_{\text{progress}} + w_2 r_{\text{grasp\_quality}} + w_3 r_{\text{balance}} + w_4 r_{\text{force\_safety}} + w_5 r_{\text{smooth}}\]

分项	公式	典型权重	设计原则
任务进度	$\exp(-d_{\text{goal}}^2 / \sigma^2)$	1.0	驱动任务完成
抓握质量	$\min(f_{\text{grip}}, f_{\text{max}}) / f_{\text{max}}$	0.5	维持稳定接触
全身平衡	$\exp(-\\|e_{rp}\\|^2 / \sigma_o^2)$	1.5	优先于任务进度
力安全	$-\text{ReLU}(\\|f\\| - f_{\text{limit}})$	2.0	硬安全约束
动作平滑	$-\\|a_t - a_{t-1}\\|^2$	0.05	部署安全

陷阱警告：力安全的权重必须高于任务进度的权重。否则策略会学会"用蛮力完成任务"——如大力推门导致门铰链损坏，或抓取时挤碎物体。在接触任务中，力的安全性是底线，任务进度是在安全前提下的优化。

课程学习在接触技能中的应用¶

接触技能的课程比非接触行走更复杂，需要按接触复杂度分级：

阶段	接触模式	任务	切换条件
1	双脚	站立和行走	存活率 > 95%
2	双脚 + 单手	触碰固定物体	接触成功率 > 80%
3	双脚 + 单手（力）	推/拉固定物体	力跟踪误差 < 2N
4	双脚 + 双手	双手搬运	物体稳定率 > 85%
5	多接触（含膝盖）	低空间操作	任务成功率 > 70%

练习 93.16.A：为人形"开门"任务设计完整的奖励函数。包含至少 6 个分项，给出每个分项的公式和权重。讨论哪些分项之间存在冲突。

练习 93.16.B：比较接触丰富任务和非接触行走任务的 domain randomization 需求差异。列出接触任务需要额外随机化的 5 个参数。

93.17 人形 RL 的评估方法论 ⭐⭐⭐¶

超越成功率的评估体系¶

人形 RL 的评估不应只看"任务成功率"。一个"成功完成任务但过程中抖动严重、力矩饱和、接近摔倒"的策略，在真机上可能比"未成功但过程安全稳定"的策略更危险。

评估维度体系¶

维度	指标	计算方式	合格标准
任务性能	成功率	成功数/总数	> 85%
	完成时间	episode 平均步数	合理范围内
	跟踪精度	关键点 MPJPE	< 5 cm
运动质量	动作平滑度	$\\|\Delta a\\|$ 均值	< 0.5 (归一化)
	能耗效率	$\sum	\tau \dot q
	步态自然性	AMP 判别器得分	> 0.6
安全性	存活率	未终止比例	> 95%
	力矩饱和率	饱和帧占比	< 5%
	最大姿态偏差	roll/pitch 峰值	< 0.3 rad
	脚底滑移	支撑脚 xy 速度	< 0.05 m/s
鲁棒性	推扰恢复率	推扰后存活	> 80%
	地形泛化	未见地形存活率	> 70%
	负载泛化	未见负载存活率	> 75%

sim-to-real gap 的量化¶

从仿真到真机的性能下降应该被系统量化：

\[\text{Gap}_{\text{metric}} = \frac{\text{metric}_{\text{sim}} - \text{metric}_{\text{real}}}{\text{metric}_{\text{sim}}} \times 100\%\]

指标	典型 sim-to-real gap	可接受范围	超出时排查方向
速度跟踪误差	20-40%	< 50%	摩擦和延迟
存活率	5-15%	< 20%	接触模型
动作平滑度	30-60%	< 80%	延迟和 PD 增益
力矩饱和率	50-100%	< 150%	电机模型

标准化评估协议¶

为了让不同研究组的结果可比，建议使用以下标准化评估协议：

固定种子：使用 5 个固定随机种子，报告均值和标准差。
标准场景：定义平地行走、坡道、推扰和操作四种标准场景。
固定时长：每个 episode 运行 20 秒（1000 步 at 50 Hz）。
分项报告：不仅报告总奖励，还必须报告每个奖励分项的均值。
视频证据：提供代表性 episode 的可视化视频。

本质洞察：评估方法论的质量往往决定了研究结论的可靠性。一个精心设计的评估框架——覆盖性能、质量、安全和鲁棒四个维度——比一个更复杂的算法但只看成功率的评估更有价值。因为后者可能隐藏关键的安全隐患。

练习 93.17.A：为你训练的人形行走策略设计一个完整的评估矩阵。包含至少 10 个指标，按上述四个维度分类。运行评估并报告结果。

练习 93.17.B：构造一个"总奖励很高但实际很危险"的策略示例。说明它会在哪些评估指标上暴露问题。

93.18 人形 RL 的未来方向 ⭐⭐⭐¶

开放问题与研究机会¶

问题	当前状态	难点	可能方向
长时程任务	episode < 30 s	信用分配和记忆	层级 RL + 世界模型
多人交互	学术实验	对手建模和安全	博弈论 + 安全约束
在线学习	几乎未解决	安全探索和样本效率	混合控制 + 保守策略
灵巧操作	早期阶段	高维动作空间和接触	层级策略 + 触觉反馈
通用人形	愿景阶段	任务种类无限	基础模型 + 微调

从专用策略到通用能力¶

当前人形 RL 的主流范式是为每类任务训练专用策略。但真正实用的人形机器人需要一个"通用底层"——能够执行走、跑、跳、蹲、抓、推、拉、搬等基本动作，然后在此基础上快速适应新任务。

这个目标需要三个方向的突破：

大规模动作预训练：类似 LLM 的预训练，用海量人体动作数据训练出一个"运动基础模型"。
高效任务微调：新任务只需少量演示或奖励微调，而非从头训练。
安全持续学习：在真机上安全地获取新经验并更新策略，不破坏已有能力。

技术路径对比¶

路线	代表	优势	劣势
大规模 PPO	ExBody 系列	训练稳定、可控	每个任务从头训练
模仿 + 微调	HumanPlus	利用人类数据	数据采集成本高
基础模型	WholebodyVLA	语义泛化	物理安全难保证
混合 MPC+RL	RAMBO 系列	安全性好	需要物理模型
世界模型 RL	DreamerV3 变体	样本效率高	接触世界模型不准

前瞻：未来的人形控制系统很可能是多种方法的混合——VLA 提供语义层、RL 提供技能层、WBC 提供安全层、世界模型提供规划层。每一层做它最擅长的事，通过标准接口连接。当前的研究需要为这个混合架构的每一层建立技术基础。

93.19 Sim-to-Real 迁移的系统工程 ⭐⭐⭐¶

从仿真到真机的完整管线¶

人形 RL 的 sim-to-real 迁移不是训练完策略后"直接部署"那么简单。它是一个包含多个验证步骤的系统工程流程。

迁移前检查清单¶

检查项	方法	通过标准	失败处理
观测归一化一致	比较训练和部署的 running mean/std	差异 < 1%	重新导出统计量
动作范围匹配	打印动作分布	覆盖 95% 的训练动作范围	调整动作缩放
控制频率匹配	测量端到端延迟	与训练 decimation 一致	调整 decimation 或降低网络复杂度
PD 增益匹配	比较关节阶跃响应	上升时间差异 < 20%	重新辨识 PD 增益
传感器校准	静态和动态校准	IMU 偏置 < 0.01 rad/s	重新校准
关节限位对齐	比较 URDF 和真机限位	完全一致	更新 URDF

分阶段部署策略¶

阶段	内容	安全措施	退出条件
S0 仿真验证	在训练仿真器中测试	无	所有指标达标
S1 交叉仿真	在不同仿真器（如 MuJoCo vs Isaac）中测试	无	性能下降 < 20%
S2 低速真机	真机上以 50% 速度运行	安全绳 + E-stop	无异常振动或跌倒
S3 正常速度	真机上以 100% 速度运行	E-stop	存活率 > 90%
S4 扰动测试	真机上施加推力和负载	E-stop + 保护垫	推扰恢复率 > 70%
S5 长时间测试	连续运行 10+ 分钟	温度监控	无热停机

交叉仿真验证（Sim-to-Sim）¶

在部署到真机之前，先在不同仿真器之间迁移策略，可以提前发现对仿真器特定行为的过拟合。

\[\text{sim-to-sim gap} = \frac{|\text{metric}_{\text{Isaac}} - \text{metric}_{\text{MuJoCo}}|}{\text{metric}_{\text{Isaac}}}\]

如果 sim-to-sim gap > 30%，说明策略过拟合于训练仿真器的特定接触模型或物理参数，需要增强 domain randomization。

真机调试工具箱¶

工具	用途	实现方式
观测回放	用真机日志驱动仿真中的策略	保存并回放 obs
动作对比	比较仿真和真机在相同 obs 下的 action	离线推理
延迟测量	测量从传感器到力矩输出的端到端延迟	GPIO 脉冲 + 示波器
力矩监控	实时显示每个关节的命令力矩和实际力矩	ROS2 可视化
步态可视化	实时显示足底压力和接触状态	自定义 rviz 插件

陷阱警告：真机上最危险的 bug 之一是观测归一化不一致。训练时的 running mean/std 如果没有正确保存和加载，策略看到的"世界"与训练时完全不同。症状是策略行为看似随机——因为它的输入经过了错误的归一化，每个维度的量级都是错的。这个问题极难从策略输出诊断，因为"错误的输入 + 正常的网络 = 看似随机的输出"。

练习 93.19.A：设计一个观测回放实验。保存真机运行 10 秒的观测日志，在仿真中用相同观测驱动策略。比较仿真和真机的动作序列。分析差异的来源。

练习 93.19.B：实现一个端到端延迟测量方案。描述如何使用 GPIO 脉冲和示波器精确测量从 IMU 数据到达到力矩命令发出的总时间。

93.20 从四足 RL 到人形 RL 的迁移经验 ⭐⭐¶

四足 RL 开发者的转型指南¶

许多进入人形 RL 领域的研究者来自四足 RL 背景。以下是从四足到人形时需要注意的关键差异和迁移策略。

关键差异总结¶

维度	四足	人形	迁移注意事项
动作维度	12	23-43	网络需要更大，训练需要更多步
支撑多边形	$\sim$ 400 cm$^2$	$\sim$ 50 cm$^2$	平衡奖励权重需要显著增大
上体自由度	0	10-20	新增上体跟踪目标和正则化
步态类型	trot/bound/gallop	双足交替	步态参数需要重新设计
摔倒成本	可翻身恢复	可能损坏硬件	安全约束更严格
训练步数	5000 万-1 亿	1-5 亿	需要更多 GPU 时间
数据来源	程序化命令	AMASS + 遥操作	新的数据管线

奖励函数的迁移¶

四足 RL 的核心奖励通常是：

\[r_{\text{quad}} = r_{\text{vel}} + r_{\text{orient}} + r_{\text{contact}} + r_{\text{smooth}} + r_{\text{energy}}\]

人形需要额外的奖励项：

\[r_{\text{humanoid}} = r_{\text{quad}} + \underbrace{r_{\text{upper}}}_{\text{上体表达}} + \underbrace{r_{\text{gait\_sym}}}_{\text{步态对称}} + \underbrace{r_{\text{arm\_swing}}}_{\text{手臂摆动}} + \underbrace{r_{\text{hip\_height}}}_{\text{髋部高度}}\]

新增奖励	公式	作用	典型权重
上体表达	$\exp(-\sum_k w_k \\|p_k - p_k^{ref}\\|^2 / \sigma^2)$	关键点跟踪	0.5-1.5
步态对称	$-\\|q_L - q_R\\|^2$	左右腿对称	0.1
手臂摆动	$-\\|\dot q_{arm}\\| \cdot \mathbb{1}_{standing}$	站立时手不乱动	0.05
髋部高度	$\exp(-(h - h_{nom})^2 / \sigma_h^2)$	防止蹲走	0.3

步态对称奖励是人形特有的需求。四足 trot 步态天然对称（对角腿同步），但人形双足步态不一定对称——策略可能学到"跛行"步态（一条腿迈大步，另一条小步），虽然在仿真中稳定但在真机上不自然且效率低。

观测空间的扩展¶

从四足到人形，观测空间扩展的不只是维度，还有信息类型：

新增观测	维度	来源	作用
上体关节角	10-20	编码器	臂和腰的状态
上体关节速度	10-20	编码器差分	运动趋势
参考关键点	$3 \times n_k$	动捕或命令	跟踪目标
命令 mask	$n_m$	任务接口	多模态命令

训练基础设施的升级¶

人形 RL 的训练通常需要比四足更多的 GPU 资源：

配置	四足（足够）	人形（建议）	人形（理想）
GPU	1x RTX 3090	1x RTX 4090	4x A100
并行环境	2048	4096	8192-16384
训练时长	1-3 小时	3-8 小时	1-2 小时
总步数	5000 万	1-3 亿	3-5 亿

本质洞察：从四足到人形的迁移不是简单地"把 12 个关节变成 30 个关节"。人形的核心挑战在于**上下体协调**——上体需要表达性，下体需要稳定性，两者通过躯干和动量耦合。四足没有这个问题（没有上体）。因此人形 RL 最重要的设计决策是如何在奖励函数中平衡表达性和稳定性。

常见迁移错误¶

错误	后果	正确做法
直接复用四足奖励权重	人形过于保守或不稳定	从小权重开始逐步调整
不加步态对称奖励	跛行步态	显式惩罚左右不对称
忽略上体正则化	手臂乱甩干扰平衡	站立时惩罚手臂速度
使用四足的 PD 增益	人形关节力矩饱和	重新调校每个关节的增益
保持四足的训练步数	策略未充分收敛	训练步数至少翻 2-3 倍

练习 93.20.A：将一个四足行走的奖励函数迁移到人形。列出每个修改项、修改原因和新权重。在仿真中验证迁移后的策略是否能学会双足行走。

练习 93.20.B（跨章综合题）：将 93.20 节的人形奖励设计与第 92 章的 TSID 任务权重做对应。讨论：WBC 中 CoM 任务权重 $w_{com} = 100$、末端任务权重 $w_{ee} = 10$ 的比值关系，在 RL 奖励中应该对应什么样的权重比？为什么不能简单按比例缩放？

93.21 人形 RL 训练的调试决策树 ⭐⭐⭐¶

系统化的训练问题诊断¶

人形 RL 训练的调试比四足更困难，因为可能出错的环节更多。以下决策树提供了系统化的诊断流程。

训练问题诊断决策树：
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
总奖励不上升？
├── 存活率 < 50%？
│   ├── 初始姿态不稳定 → 检查初始化和 PD 增益
│   ├── 动作范围过大 → 减小动作缩放或加限位惩罚
│   └── 奖励尺度不合理 → 检查各分项量级是否匹配
├── 存活率 > 50% 但奖励不涨？
│   ├── 学习率太低 → 增大或使用学习率预热
│   ├── 奖励稀疏 → 加密引导奖励
│   └── 探索不足 → 增大熵系数或初始标准差
└── 奖励上涨后下降？
    ├── 过拟合当前分布 → 增加 domain randomization
    ├── 熵塌缩 → 增大熵正则化下界
    └── 值函数不准确 → 增大 critic 网络或降低 GAE lambda
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

分项奖励监控面板¶

训练时应实时监控以下面板：

面板	包含曲线	健康标志	报警条件
总奖励	mean, min, max	持续上升	下降超过 10%
存活率	episode 存活率	> 90%	低于 70%
速度跟踪	$r_{vel}$ 均值	0.7-0.9	低于 0.3
姿态稳定	$r_{orient}$ 均值	> 0.85	低于 0.6
接触质量	$r_{contact}$ 均值	接近 0	持续恶化
动作平滑	$\\|a_t - a_{t-1}\\|$	< 0.3	上升趋势
策略熵	entropy	缓慢下降	突然崩塌到 0
值函数损失	critic loss	收敛	持续增大
KL 散度	approx KL	0.01-0.05	> 0.1

快速修复指南¶

症状	最可能原因	首先尝试	其次尝试
1000 万步仍站不起来	初始化过大	最后一层权重 $\times 0.01$	增大 PD 增益
会走但频繁摔倒	平衡奖励不足	$w_{orient} \times 2$	增加推扰训练
走路但手臂乱甩	缺少上体正则	加 $r_{arm\_reg}$	加 AMP 先验
动作非常抖	平滑惩罚不足	$w_{smooth} \times 5$	降低控制频率
脚底持续滑动	接触惩罚不足	$w_{contact} \times 3$	增大摩擦 DR 范围
总奖励高但不像人	自然性奖励缺失	加 AMP 判别器	加关键点跟踪
蒸馏后严重退化	分布偏移	使用 DAgger	增加历史帧数
仿真好真机差	归一化不一致	检查 running stats	增大 DR 范围

调试原则：人形 RL 的调试应遵循"单变量控制"原则——每次只改一个超参数或奖励权重，观察其对所有分项指标的影响。如果同时改多个参数，即使总奖励提升了，你也无法确定是哪个改动起了作用——下次遇到类似问题时无法复用经验。

练习 93.21.A：在人形行走训练中故意设置一个错误（如 $w_{contact} = 0$），观察训练曲线的变化。使用上述决策树诊断问题并修复。记录从发现问题到修复的完整过程。

93.22 人形 RL 的计算效率优化 ⭐⭐¶

GPU 利用率优化¶

人形 RL 的训练瓶颈通常在 GPU 利用率上。以下是提升训练速度的关键优化：

优化项	方法	加速比	实现难度
环境向量化	Isaac Lab 原生并行	基线	低
混合精度训练	FP16 策略 + FP32 值函数	1.3-1.5x	中
编译策略网络	`torch.compile`	1.2-1.4x	低
优化观测计算	避免不必要的 FK 重复计算	1.1-1.3x	中
异步数据传输	CUDA 流并行仿真和训练	1.2x	高
减少 Python 开销	关键路径用 C++/CUDA	1.5-2x	高

内存优化¶

人形 RL 的高维观测和动作空间会消耗大量 GPU 内存。4096 个并行环境 $\times$ 100 维观测 $\times$ 24 步 rollout = 约 40 MB（FP32）。加上梯度和中间状态，单个训练 step 可能需要 4-8 GB。

内存优化策略：

梯度检查点（gradient checkpointing）：用计算换内存，仅保存部分激活。
观测压缩：对高维观测（如高度图）使用 PCA 或 autoencoder 降维。
动态 batch size：训练初期用小 batch（策略变化大），后期用大 batch（梯度更稳定）。

训练时间估算¶

配置	人形行走	人形操作	全身模仿
1x RTX 4090, 4096 env	3-5 小时	6-10 小时	8-15 小时
4x A100, 16384 env	0.5-1 小时	1-2 小时	2-4 小时
1x RTX 3060, 1024 env	12-20 小时	24-40 小时	不推荐

实践建议：对于初学者，建议先用小规模配置（1024 环境，50 维观测）验证奖励设计和训练管线的正确性，然后再扩展到大规模训练。在小规模上花 1 小时发现的 bug，可能在大规模上要花 8 小时才暴露——因为大规模训练的慢反馈循环会隐藏早期问题。

练习 93.22.A：测量你的训练管线的 GPU 利用率（使用 nvidia-smi 或 torch.profiler）。如果利用率低于 70%，分析瓶颈是在仿真、网络推理还是数据传输，并提出优化方案。

章末统一练习与故障排查¶

⚠️ 易错点一：只看单个指标。 230_人形全身RL 中的任何结论都应同时检查任务指标、物理约束和软件接口。只看总误差或总奖励，容易把模型错误误判为参数问题。

💡 易错点二：忽略坐标系和时间戳。 复合机器人控制链很长，坐标系、采样频率和延迟一旦没有显式记录，后续所有优化和学习结果都会失去解释力。

🧠 易错点三：把演示成功当成系统可靠。 教学实验应至少包含一次扰动、一次异常输入和一次日志回放分析，才能说明方法的边界。

练习¶

选择本章一个核心公式，写出每一项的单位、坐标系和数据来源。
选择本章一个代码片段，说明它依赖哪些配置项；如果配置错一个符号，会出现什么日志现象？
设计一个只改变单个因素的实验，用来验证本章最关键的工程判断。

本质洞察：复合机器人文档中的公式、代码和项目不是三块孤立内容。公式定义可行边界，代码实现边界，项目用日志证明边界是否真实存在。

故障排查¶

症状	优先怀疑	验证动作
仿真正常但部署异常	观测、坐标系或时间戳不一致	用同一段日志离线回放训练端和部署端
指标突然变差	模式切换、限幅或安全壳触发	画出模式、保护标志和控制命令
调参没有效果	根因不是权重而是模型假设错误	回到最小实验，关闭无关模块
结果难以复现	配置没有版本化	保存模型哈希、配置哈希和随机种子

下一章连接：本章与第 92 章构成人形全身控制的两条互补路线。第 92 章的 ZMP/DCM/TSID 提供可解释的经典框架，本章的 RL 提供数据驱动的学习框架。实际系统正在将两者融合——RL 学习高维技能，WBC 保证物理安全。后续复合/250 将进一步讨论力敏感人形 LocoMani，需要同时使用本章的策略训练能力和经典控制的力调节能力。

阅读提示：本章内容量大，建议按以下优先级学习。

必读：93.1（动机）、93.2-93.4（数据管线）、93.5（奖励工程）、93.7（ExBody）——这五节构成人形 RL 的最小完整知识。

核心：93.6（网络架构）、93.8（AMP）、93.10（蒸馏与 DAgger）——掌握后可以独立设计训练管线。

进阶：93.9（HumanPlus）、93.11（多模态命令）、93.12（IsaacLab 配置）——了解前沿方向和工程实践。

扩展：93.15-93.22（VLA、接触技能、评估、调试）——为深入研究和实际部署准备。

如果只有一周时间，优先完成 93.1-93.5 和 93.7 的阅读与练习。奖励工程（93.5）是本章最重要的实践技能——它决定了策略能学到什么行为。

本章核心回顾：人形 RL 的价值在于把经典 WBC 中难以手调的高维协调规律转移到数据驱动学习中。但成功的人形 RL 系统绝不是"端到端黑盒"——它大量依赖精心设计的奖励函数、物理一致的仿真环境、经过过滤的动作数据和分阶段的训练课程。

本章最重要的三个技能：(1) 奖励工程——理解每个分项的物理对应和权重平衡；(2) 分项监控——总奖励上升不等于策略安全；(3) sim-to-real 检查——归一化一致性是最常见也最难调试的部署 bug。

阶段	内容	时间
入门	93.1-93.4，理解数据管线（AMASS → 重定向 → 过滤）	1 周
核心	93.5-93.8，掌握奖励工程、网络设计和 AMP	1 周
进阶	93.9-93.12，理解蒸馏、多模态和训练 pipeline	0.5 周
实践	综合项目，训练一个简化的全身策略	0.5 周

量	含义	典型维度	用于机器人时的作用
shape \(\beta\)	人体体型参数	10+	匹配机器人骨长比例
pose \(\theta\)	各关节旋转	55 关节左右	生成关键点和末端方向
root translation	全局平移	3	给出根轨迹
body keypoints	肩肘腕髋膝踝等	按任务选择	重定向主要目标
mesh vertices	人体表面点	数千点	碰撞与视觉对齐

参数	典型值	含义	调节效果
\(w_{vel}\)	1.0-2.0	速度奖励权重	过大导致激进加速
\(\sigma_v\)	0.25 m/s	奖励带宽	过小使奖励过于尖锐

参数	典型值	含义	调节效果
\(w_{orient}\)	0.5-1.0	姿态奖励权重	过大使机器人僵硬
\(\sigma_o\)	0.2 rad	姿态误差带宽	过小限制躯干运动

参数	典型值	含义	调节效果
\(w_{upper}\)	0.5-1.5	上体总权重	过大牺牲平衡换表达
\(\sigma_u\)	0.1 m	关键点误差带宽	过小要求不合理的精度
\(w_k\)（肩）	1.0	肩关键点权重	肩部影响全身动量
\(w_k\)（腕）	0.5	腕关键点权重	腕部细节可放松

分项	期望行为	异常信号
\(r_{vel}\)	随训练上升并稳定在 0.7-0.9	始终很低（速度跟踪失败）或过高（总是静止）
\(r_{orient}\)	快速上升到 0.9+	振荡或下降（躯干不稳）
\(r_{upper}\)	缓慢上升到 0.5-0.8	与 \(r_{orient}\) 反相关（上体和稳定冲突）
\(r_{energy}\)	先下降后稳定	持续下降（策略越来越激进）
\(r_{smooth}\)	快速下降后稳定	下降后反弹（策略发现了高奖励但抖动的行为）
\(r_{contact}\)	快速下降后接近零	始终很大（脚底持续滑动）

方法	实现	优点	缺点
Running mean/std	\(\hat o = (o - \mu_{run}) / \sigma_{run}\)	自适应、无需先验	训练初期统计不稳定
Fixed normalization	\(\hat o = o / s_{fixed}\)	稳定、可复现	需要手工设定缩放因子
分组归一化	不同观测类型分别归一化	细粒度控制	实现复杂

设计选择	典型方案	原因
输入	\((s_t, s_{t+1})\) 的状态对	捕获运动特征而非静态姿态
网络	3 层 MLP [1024, 512]	判别器不需要太大
输出	单个标量	经 sigmoid 后表示"像真人"的概率
训练目标	LSGAN 或 WGAN-GP	WGAN-GP 训练更稳定
梯度惩罚	\(\lambda_{gp} = 5-10\)	防止判别器梯度爆炸

方案	动作输出	控制频率	平滑性	反应速度
单步 MLP	\(a_t\)	50 Hz	依赖平滑奖励	快
ACT (k=5)	\([a_t, ..., a_{t+4}]\)	10 Hz	内在平滑	慢 (50ms)
Temporal Ensemble	多次预测加权平均	50 Hz	良好	中等

命令类型	维度	内容	mask 位
速度命令	3	\([v_x, v_y, \omega_z]\)	\(m[0:3]\)
关节角目标	\(n_a\)	上体或全身关节角	\(m[3:3+n_a]\)
末端位姿	6-12	左右手的 SE(3) 目标	\(m[3+n_a:...]\)
动作参考	可变	动捕关键点或动作 ID	\(m[...]\)

随机化参数	范围	原因
躯干质量	\(\pm 20\%\)	人形重心高，质量变化对平衡影响更大
手臂末端负载	0-2 kg	模拟抓取或搬运
足底摩擦	[0.3, 1.5]	不同地面材质
关节阻尼	\(\pm 30\%\)	减速器特性差异
控制延迟	[0, 40] ms	通信和计算延迟
IMU 噪声	\(\pm 0.05\) rad/s	陀螺仪漂移
推力扰动	[0, 50] N, 每 3-8 s	模拟外部碰撞
CoM 偏移	\(\pm 3\) cm	建模误差

字段	频率	格式	用途
关节角 \(q\)	50 Hz	float32 x nq	行为克隆标签
关节速度 \(\dot q\)	50 Hz	float32 x nv	动力学分析
关节力矩 \(\tau\)	50 Hz	float32 x na	力矩可行性检查
IMU 数据	200 Hz	float32 x 6	基座状态估计
VR 头手位姿	90 Hz	SE(3) x 3	命令重建
相机图像	30 Hz	JPEG/PNG	视觉策略训练
接触状态	50 Hz	bool x 4	步态相位标注
失败标记	事件	enum	数据质量过滤
配置哈希	一次	string	复现性

编号	公式	含义	使用位置
E1	\(\beta^*=\arg\min_\beta\sum_k\\|J_k^{human}(\beta)-J_k^{robot}\\|^2\)	形态拟合	SMPL-X 到机器人
E2	\(q_t^*=\arg\min_q\sum_k\\|T_k(q)-T_k^{human}\\|^2+\lambda\\|\Delta q\\|^2\)	动作拟合	逐帧 IK
E3	\(r=r_{upper}+r_{vel}+r_{contact}+r_{smooth}\)	ExBody 奖励骨架	全身策略训练
E4	\(L=\\|\pi_s(o_s)-\pi_t(o_t)\\|^2\)	蒸馏损失	Teacher-Student
E5	\(o=[o_{prop},m\odot c,m]\)	命令 mask 观测	多模式策略
E6	\(A_t=\sum_l(\gamma\lambda)^l\delta_{t+l}\)	GAE	PPO 训练
E7	\(r=\exp(-\\|e\\|^2/\sigma^2)\)	有界跟踪奖励	动作模仿和速度跟踪
E8	\(r_{AMP} = \max(0, 1 - 0.25(D-1)^2)\)	AMP 风格奖励	对抗式动作先验

观测类型	维度	来源	作用
接触力	\(3 \times n_c\)	力传感器或估计	知道当前受力
接触法向	\(3 \times n_c\)	几何计算	知道约束方向
接触标志	\(n_c\)	阈值检测	离散模式信息
物体状态	6-12	视觉或编码器	任务进度
手指关节角	10-20	编码器	抓取状态

分项	公式	典型权重	设计原则
任务进度	\(\exp(-d_{\text{goal}}^2 / \sigma^2)\)	1.0	驱动任务完成
抓握质量	\(\min(f_{\text{grip}}, f_{\text{max}}) / f_{\text{max}}\)	0.5	维持稳定接触
全身平衡	\(\exp(-\\|e_{rp}\\|^2 / \sigma_o^2)\)	1.5	优先于任务进度
力安全	\(-\text{ReLU}(\\|f\\| - f_{\text{limit}})\)	2.0	硬安全约束
动作平滑	\(-\\|a_t - a_{t-1}\\|^2\)	0.05	部署安全

新增奖励	公式	作用	典型权重
上体表达	\(\exp(-\sum_k w_k \\|p_k - p_k^{ref}\\|^2 / \sigma^2)\)	关键点跟踪	0.5-1.5
步态对称	\(-\\|q_L - q_R\\|^2\)	左右腿对称	0.1
手臂摆动	\(-\\|\dot q_{arm}\\| \cdot \mathbb{1}_{standing}\)	站立时手不乱动	0.05
髋部高度	\(\exp(-(h - h_{nom})^2 / \sigma_h^2)\)	防止蹲走	0.3

症状	最可能原因	首先尝试	其次尝试
1000 万步仍站不起来	初始化过大	最后一层权重 \(\times 0.01\)	增大 PD 增益
会走但频繁摔倒	平衡奖励不足	\(w_{orient} \times 2\)	增加推扰训练
走路但手臂乱甩	缺少上体正则	加 \(r_{arm\_reg}\)	加 AMP 先验
动作非常抖	平滑惩罚不足	\(w_{smooth} \times 5\)	降低控制频率
脚底持续滑动	接触惩罚不足	\(w_{contact} \times 3\)	增大摩擦 DR 范围
总奖励高但不像人	自然性奖励缺失	加 AMP 判别器	加关键点跟踪
蒸馏后严重退化	分布偏移	使用 DAgger	增加历史帧数
仿真好真机差	归一化不一致	检查 running stats	增大 DR 范围