pretrain时数据按照Text Packing处理,跨文档情况的label_ids似乎没做语义对齐的处理?
例如,这一批数据是:[A0, A1, A2, <//s>, B0, B1, <//s>, C1],那么:
input_ids : [A0, A1, A2, <//s>, B0, B1, <//s>, C1]
label_ids: [A1, A2, <//s>, -100, B1, <//s>, -100]
(不同字母代表不同文本)
即跨文档的第一个token应该设置成ignore index才是合理的?
目前我没有在原文件中找到这部分逻辑 (utils.py 中的 pretrain_collate_fn, llm_trainer中loss.py的LMloss forward没有相对应的逻辑)
请问是在别的地方做了相对应的处理吗?或者说不需要这么处理呢?如果不需要这么处理想请教一下原因,谢谢!
pretrain时数据按照Text Packing处理,跨文档情况的label_ids似乎没做语义对齐的处理?
例如,这一批数据是:[A0, A1, A2, <//s>, B0, B1, <//s>, C1],那么:
input_ids : [A0, A1, A2, <//s>, B0, B1, <//s>, C1]
label_ids: [A1, A2, <//s>, -100, B1, <//s>, -100]
(不同字母代表不同文本)
即跨文档的第一个token应该设置成ignore index才是合理的?
目前我没有在原文件中找到这部分逻辑 (utils.py 中的 pretrain_collate_fn, llm_trainer中loss.py的LMloss forward没有相对应的逻辑)
请问是在别的地方做了相对应的处理吗?或者说不需要这么处理呢?如果不需要这么处理想请教一下原因,谢谢!