Skip to content

EvalSidDataset 和 SidSFTDataset 的 prompt 文本未对齐,想了解设计考量 #65

@cywuuuu

Description

@cywuuuu

作者您好,我在阅读代码时发现 EvalSidDataset 和 SidSFTDataset 两个数据集类中,生成 prompt 的核心文本存在不一致的情况,想向您确认这是否是有意设计的,以及背后的考虑:
核心不一致点:两个类的 get_history 方法中,input 字段的文本表述不同:
EvalSidDataset:
f"Can you predict the next possible item the user may expect, given the following chronological interaction history: {history}"
SidSFTDataset:
f"The user has interacted with items {history} in chronological order. Can you predict the next possible item that the user may expect?"

我的疑问
这两个数据集分别用于测试和训练场景,prompt 文本的不一致是否是有意设计的?如果是,想了解这样设计的考量(比如是否为了适配不同阶段的模型行为、数据分布等);
如果是无心的疏漏,是否建议统一两者的 prompt 文本,以保证训练和测试阶段的输入格式一致?

感谢您的解答!

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions