spann3r论文阅读
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
Spann3R 主要数据流向:
┌──> 输入图像 I_t (当前帧)
│
├──> ViT 编码器 (Encoder_I) # 提取视觉特征
│ └──> 视觉特征 f_I^t
│
├──> 记忆查询特征 f_Q^{t-1} (上一帧查询)
│ └──> 进入 记忆读取 (Memory Read)
│
├──> 记忆模块 (Spatial Memory)
│ ├──> 记忆键 f_K (Memory Key)
│ ├──> 记忆值 f_V (Memory Value)
│ └──> 输出 融合特征 f_G^{t-1} (基于 f_Q^{t-1} 读取)
│
├──> 交织解码器 (Intertwined Decoders)
│ ├──> 目标解码器 (Target Decoder)
│ │ ├──> 输入: f_I^t (当前帧视觉特征), f_G^{t-1} (记忆读取结果)
│ │ ├──> 交叉注意力 处理两者
│ │ └──> 输出 查询特征 f_Q^t (用于下一帧)
│ │
│ ├──> 参考解码器 (Reference Decoder)
│ │ ├──> 输入: f_I^t, f_G^{t-1}
│ │ ├──> 交叉注意力 处理
│ │ ├──> 输出 点图 X_{t-1}, 置信度 C_{t-1}
│ │ ├──> 输出 记忆键 f_K^{t-1}
│ │ ├──> 输出 记忆值 f_V^{t-1} (编码自 X_{t-1})
│ │ └──> 更新 记忆模块
│
└──> 生成最终 3D 点云 (Pointmap X_t) 并用于下一帧
本文由作者按照 CC BY 4.0 进行授权