大词表优劣

优势

LLM通常是自回归，解码的token越多，速度越慢。通过增大词表就可以缩短序列的长度，提高压缩比率。也就是说模型处理相同的序列所对应的token会变少（极端情况下每句话都对应一个token，则一个序列就是一个token对应，当然不可能这么做）相应的解码步数也会变少，从而提升了解码速度。与此同时语言模型训练的时候采取的都是teacher forcing，缩短序列长度也可以缓解其所带来的exposure bias问题，提升模型效果。

劣势

割裂token之间字符级别的联系，影响泛化性，有时会损失在某些任务上的能力。比如：

如“import numpy as np”都变成了一个token，然后发现当用户输入“import numpy”时，模型无法续写出“ as np”。原因很简单，“import numpy as np”被当作了一个token，于是当“import numpy”单独出现时，模型会发现它后面永远不会接“ as np”（接“ as np”的都被合并成单独的“import numpy as np”了），自然也无法完成续写。

参考

1科学空间

token

"token"

大词表优劣

优势

劣势

参考

FEATURED TAGS