BERT官方给的中文预训练模型的tokenize是字级别的,没有考虑n_gram的信息,请问有没有大佬做i过考虑了ngram等其他信息的更完备的BERT预训练模型
BERT官方给的中文预训练模型的tokenize是字级别的,没有考虑n_gram的信息,请问有没有大佬做i过考虑了ngram等其他信息的更完备的BERT预训练模型