spatial forcing 复现

使用测试版本 torch 2.2.0 Python 3.10.16 CUDA 12.4 H200 500 trials by default (10 tasks x 50 episodes each) libero spatial object goal long avg ...

2026/03/12

nil}" alt="Preview Image" >

transform in pi

关于pi中的input/output transform 有几点比较重要的点: compute_norm_stat和train中都使用了config，因此不存在归一化空间与推理时使用的空间不一致的情况训练阶段只使用了input transform, 推理阶段使用了input & output transform # c...

2025/12/18

nil}" alt="Preview Image" >

robot可视化相关

ros2 + rosbridge + lichtblick lichtblick docker lichtblick可以直接docker启动 https://github.com/lichtblick-suite/lichtblick doc: https://lichtblick-suite.github.io/docs/ sudo docker run --rm -p 808...

2025/12/18

nil}" alt="Preview Image" >

关于Openpi的state和action

绝对or相对？ umiEE是相对于第一帧的，将绝对的EEF pose转换为相对于第一帧的所以就目前看来，意思是而且根据59中的代码: # generate relative pose with respect to episode start for robot_id in range(self.num_robot): ...

2025/12/05

nil}" alt="Preview Image" >

工具坐标系（TCF）标定

目标：标定pika与机械臂末端架爪坐标系因为架爪与机械臂末端之间的定制连接件的孔位不是严格对齐的，因此使用六点标定（偏移和旋转量），架爪TCP到末端的变换矩阵。坐标系 pika坐标系: pika的坐标系是在夹爪中心上，x轴朝前、y轴朝左、z轴朝右。 Agilebot坐标系工具坐标系：这是用来定义工具中心点（TCP）的位置和工具姿势的坐标系。工具...

2025/11/04

nil}" alt="Preview Image" >

VLA Metic & Benchmark

eval：开环与闭环 Single-instance Sim Benchmark Real Dataset

2025/10/31

nil}" alt="Preview Image" >

pi0

参考： Maximum Likelihood Training of Score-Based Diffusion Models(NeurIPS 2021) Flow Matching for Generative Modeling 基础概念概率路径(probabilty path): 一个随着时间$t\in[0, 1]$变化的概率分布簇${p_t(x)}$ 连续正则化流(Cont...

2025/10/18

nil}" alt="Preview Image" >

ICLR2026 VLA

概念定义 What is a Vision-Language-Action Model? VLM并不一定包含预训练的VLM, 满足VLA定义的关键在于：能接受language + video输入能够预测actions 但忽略了一点：是否进行了基于视觉-语言数据的互联网规模预训练如果没有internet-scale train, 作者认为属于 multimo...

2025/10/17

nil}" alt="Preview Image" >