基于互信息和字符耦合度的中文分词歧义消除器
这是一个专门用于解决中文分词歧义问题的工具。它使用互信息和字符耦合度的方法来确定最佳的分词方案,特别适用于处理具有多种可能分词方式的中文短语。
- 基于互信息的分词评分
- 字符耦合度计算
- 支持自定义语料库训练
- 多进程并行处理大规模语料库
- 内置预定义词典
- 支持手动权重调整
from ChineseSegmentationDisambiguator import ChineseSegmentationDisambiguator
# 创建消歧器实例
disambiguator = ChineseSegmentationDisambiguator()
# 准备候选分词列表
candidates = [
"我\从小\学\电脑",
"我\从\小学\电脑"
]
# 获取最佳分词结果
best_segmentation, probabilities = disambiguator.disambiguate(candidates)
print(f"最佳分词: {best_segmentation}")
print(f"各候选项概率: {probabilities}")项目使用Python标准库实现,无需安装额外依赖。
MIT License