能否透露一些finetune的细节呢? 比如 pose输入和 depth输入是分开finetune 还是一起的? 因为depth涉及到encoder的优化我担心模型太深导致较难收敛 如果我们想基于我们自己场景的rgbd数据对PI3X 进行finetune , 可以先去掉depth finetune完后, 再单独finetune depth的encoder吗?
能否透露一些finetune的细节呢? 比如 pose输入和 depth输入是分开finetune 还是一起的?
因为depth涉及到encoder的优化我担心模型太深导致较难收敛
如果我们想基于我们自己场景的rgbd数据对PI3X 进行finetune , 可以先去掉depth finetune完后, 再单独finetune depth的encoder吗?