© 2026 LinearBytes Inc.
Search posts, tags, users, and pages
wpixiu
分词粒度 词粒度 word:英文天生使用空格分隔词汇,中文可使用 jieba 分词工具。 优点:词的边界和含义得到保留。 缺点: 由于长尾效应,词粒度的词表可能会非常大,包含很多的稀有词,存储和训练成本高,稀有词往往很难学习好。 OOV(out of vocabulary)问题:对词表之外的词无能为力。 无法处理单词的形态关系和词缀关系。同一个词的不同形态,语义相近,完全当做不同的单词
No responses yet.