请问PI3X是在VGGT的模型上进行finetune的还是在PI3的模型上finetune的?

能否透露一些finetune的细节呢? 比如 pose输入和 depth输入是分开finetune 还是一起的?
因为depth涉及到encoder的优化我担心模型太深导致较难收敛

如果我们想基于我们自己场景的rgbd数据对PI3X 进行finetune ,  可以先去掉depth finetune完后, 再单独finetune depth的encoder吗?