EvalSidDataset 和 SidSFTDataset 的 prompt 文本未对齐，想了解设计考量

作者您好，我在阅读代码时发现 EvalSidDataset 和 SidSFTDataset 两个数据集类中，生成 prompt 的核心文本存在不一致的情况，想向您确认这是否是有意设计的，以及背后的考虑：
核心不一致点：两个类的 get_history 方法中，input 字段的文本表述不同：
EvalSidDataset：
f"Can you predict the next possible item the user may expect, given the following chronological interaction history: {history}"
SidSFTDataset：
f"The user has interacted with items {history} in chronological order. Can you predict the next possible item that the user may expect?"

我的疑问
这两个数据集分别用于测试和训练场景，prompt 文本的不一致是否是有意设计的？如果是，想了解这样设计的考量（比如是否为了适配不同阶段的模型行为、数据分布等）；
如果是无心的疏漏，是否建议统一两者的 prompt 文本，以保证训练和测试阶段的输入格式一致？

感谢您的解答！

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

EvalSidDataset 和 SidSFTDataset 的 prompt 文本未对齐，想了解设计考量 #65

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

EvalSidDataset 和 SidSFTDataset 的 prompt 文本未对齐，想了解设计考量 #65

Description

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions