什么是DPT？

DUSt3R, MASt3R等预训练模型名字中总是包含dpt, dpt是什么? DUSt3R_ViTLarge_BaseDecoder_512_dpt.pth ## head一般是网络的最后一层或几层，用于将backbone提取的特征转为特定任务的输出。 dust3r中，有两种head类型, 分别是pts3d和dpt。 Vision transformers for dense ...

2025/05/09

时间复杂度与概率

离散数学回旋镖系列 :) 想到一个问题：假设有n个数字，有一个函数能够每次取一个数（概率相同），取完之后对应的标签位置为1，（可能取到位置为1的数，如果取到，则重新取），取完$n$个不同的数字最终的时间复杂度是多少优惠券收集问题概念: 期望 = 事件 * 事件发生的概率在优惠券收集问题中，设总共有$n$种不同的优惠券，每次收集时得到一种新的优惠券的概率取决于已经收集到的优惠券...

2025/05/09

MUSt3R 论文阅读

关于mast3r, dust3r, global alignment的一些理解最近在kaggle上使用mast3r作为baseline, 遇到了一些disk溢出的问题在sparse_global_alignment阶段, 会将所有的图像和图像对输入到forward_mast3r，计算对应关系，并将计算的结果缓存到cache目录下，之后的prepare_canonical_data阶段...

2025/04/25

Expansion of the Dust3R structure with larger inputs

方法名称核心策略是否支持增量效率表现精度 & 全局一致性发布时间 DUSt3R 两视图Transformer回归局部点云，需后续全局优化对齐否 O(n²) 成对重建，效率低精度高但误差累积，全局一致性依赖后处理优化 ...

2025/04/21

kaggle-imc25 记录

第一次打kaggle比赛因为没什么经验，中间浪费了很多时间和提交次数来了解数据、测试流程和模型部署。虽然没拿到牌子, 还是学到了不少东西。下次继续努力 :) 结束第一天总结相比于自己搭建框架, 优先去复刻往年金牌的思路，注意其中提到的技巧以及baseline（其实写论文也是如此，站在巨人的肩膀上，不要因为非我发明综合征而去重复造轮子）本地s...

2025/04/21

机器人夹爪相关

关于robotiq 2F-85的ROS/ROS2驱动相关: 官方论坛的讨论官方停止维护的github repo panagelak个人开发的ROS2 driver

2025/03/17

Vit_block

来自croco的Transformer Block, 类似于ViT或Swin Transformer的基本块。 class Block(nn.Module): def __init__(self, dim, num_heads, mlp_ratio=4., qkv_bias=False, drop=0., attn_drop=0., drop_p...

2025/03/14

tmp

并不是为了学习VAE 而是之前看LRM的openreview意见时，有个review提到，LRM是一个判别模型而非生成模型。那么什么是判别模型(discriminative)什么又是生成模型(generative) 今天在ai summer里偶然看到了对比，临时记录下图来自:https://theaisummer.com/latent-variable-models/

2025/03/11

diffusion model是如何工作的

本文是对diffusion的入门级学习记录。现在只考虑最简单的情况学习资料来自: How diffusion models work: the math from scratch apxml GaussianObject: High-Quality 3D Object Reconstruction from Four Views with Gaussian Splatting ...

2025/03/11

Handcraft_mha

手撕MHA 我们需要什么首先, 点积注意力(Scaled Dot-Product Attention)是注意力机制所需的最小单元，你也可以叫他(自注意力) 准备QKV 首先我们需要将输入的tensor映射到Query, Key和Value三个向量空间中去。 self.W_q = nn.Linear(embed_dim, embed_dim) self.W_k = nn.Linea...

2025/03/10