1.问题描述: 原始 question.txt 存在 \r 换行符以及大量不规则的空行,直接切割会导致生成大量无效的空 chunk。 2.解决方案: 在切片前执行了多步预处理: question.replace("\r", ""):统一换行格式。 re.sub(r'\n+', '\n', chunk):合并连续换行,防止空块。 在循环中加入 item.strip() 确保每一项内容的整洁。
1.问题描述: 原始 question.txt 存在 \r 换行符以及大量不规则的空行,直接切割会导致生成大量无效的空 chunk。
2.解决方案: 在切片前执行了多步预处理:
question.replace("\r", ""):统一换行格式。
re.sub(r'\n+', '\n', chunk):合并连续换行,防止空块。
在循环中加入 item.strip() 确保每一项内容的整洁。