文章

spann3r论文阅读

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
Spann3R 主要数据流向:
┌──> 输入图像 I_t  (当前帧)
│
├──> ViT 编码器 (Encoder_I)  # 提取视觉特征
│     └──> 视觉特征 f_I^t
│
├──> 记忆查询特征 f_Q^{t-1} (上一帧查询)
│     └──> 进入 记忆读取 (Memory Read)
│
├──> 记忆模块 (Spatial Memory)
│     ├──> 记忆键 f_K (Memory Key)
│     ├──> 记忆值 f_V (Memory Value)
│     └──> 输出 融合特征 f_G^{t-1}  (基于 f_Q^{t-1} 读取)
│
├──> 交织解码器 (Intertwined Decoders)
│     ├──> 目标解码器 (Target Decoder)
│     │     ├──> 输入: f_I^t (当前帧视觉特征), f_G^{t-1} (记忆读取结果)
│     │     ├──> 交叉注意力 处理两者
│     │     └──> 输出 查询特征 f_Q^t (用于下一帧)
│     │
│     ├──> 参考解码器 (Reference Decoder)
│     │     ├──> 输入: f_I^t, f_G^{t-1}
│     │     ├──> 交叉注意力 处理
│     │     ├──> 输出 点图 X_{t-1}, 置信度 C_{t-1}
│     │     ├──> 输出 记忆键 f_K^{t-1}
│     │     ├──> 输出 记忆值 f_V^{t-1} (编码自 X_{t-1})
│     │     └──> 更新 记忆模块
│
└──> 生成最终 3D 点云 (Pointmap X_t) 并用于下一帧

本文由作者按照 CC BY 4.0 进行授权