Skip to content
This repository was archived by the owner on Apr 20, 2026. It is now read-only.

aolingge/trae-segmentation

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 

Repository files navigation

Trae

基于互信息和字符耦合度的中文分词歧义消除器

项目简介

这是一个专门用于解决中文分词歧义问题的工具。它使用互信息和字符耦合度的方法来确定最佳的分词方案,特别适用于处理具有多种可能分词方式的中文短语。

主要特性

  • 基于互信息的分词评分
  • 字符耦合度计算
  • 支持自定义语料库训练
  • 多进程并行处理大规模语料库
  • 内置预定义词典
  • 支持手动权重调整

使用方法

from ChineseSegmentationDisambiguator import ChineseSegmentationDisambiguator

# 创建消歧器实例
disambiguator = ChineseSegmentationDisambiguator()

# 准备候选分词列表
candidates = [
    "我\从小\学\电脑",
    "我\从\小学\电脑"
]

# 获取最佳分词结果
best_segmentation, probabilities = disambiguator.disambiguate(candidates)
print(f"最佳分词: {best_segmentation}")
print(f"各候选项概率: {probabilities}")

安装依赖

项目使用Python标准库实现,无需安装额外依赖。

许可证

MIT License

About

Archived Chinese word segmentation experiment focused on NLP practice and historical notes.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors