Skip to content

修复语料预处理中的换行符与碎片数据干扰 #2

@fatHFISH

Description

@fatHFISH

1.问题描述: 原始 question.txt 存在 \r 换行符以及大量不规则的空行,直接切割会导致生成大量无效的空 chunk。

2.解决方案: 在切片前执行了多步预处理:
question.replace("\r", ""):统一换行格式。
re.sub(r'\n+', '\n', chunk):合并连续换行,防止空块。
在循环中加入 item.strip() 确保每一项内容的整洁。

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions