lightx2v  是否会增加 tp的方式来减少内存的开销？

尽管lightx2v 当前支持cpu offload 以及量化来减少内存的开销，
但是使用cpu offload 之后整体的性能也会下降很多，使用量化的话也会损失一定的精度，想要以高精度运行模型，未来是否会增加类似于tp 并行的方式，对weight进行切分，减少运行内存。