© 2026 LinearBytes Inc.
Search posts, tags, users, and pages
wpixiu
Byte Pair Encoding (BPE) 论文:Neural Machine Translation of Rare Words with Subword Units 核心思想:从一个基础小词表开始,通过不断合并最高频的连续 token 对来产生新的 token。 具体做法: 输入训练语料和期望词表大小 V。 准备基础词表:比如英文中 26 个字母加上各种符号,并初始化 ID。
No responses yet.