Skip to content

Pretrain阶段 Text Packing 数据 label_ids 设定问题 #28

Description

@zykRichard

pretrain时数据按照Text Packing处理,跨文档情况的label_ids似乎没做语义对齐的处理?
例如,这一批数据是:[A0, A1, A2, <//s>, B0, B1, <//s>, C1],那么:
input_ids : [A0, A1, A2, <//s>, B0, B1, <//s>, C1]
label_ids: [A1, A2, <//s>, -100, B1, <//s>, -100]
(不同字母代表不同文本)
即跨文档的第一个token应该设置成ignore index才是合理的?

目前我没有在原文件中找到这部分逻辑 (utils.py 中的 pretrain_collate_fn, llm_trainer中loss.py的LMloss forward没有相对应的逻辑)
请问是在别的地方做了相对应的处理吗?或者说不需要这么处理呢?如果不需要这么处理想请教一下原因,谢谢!

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions