文档首页/ 盘古大模型 PanguLargeModels/ 常见问题/ 大模型概念类问题/ 大模型的计量单位token指的是什么
更新时间:2024-08-29 GMT+08:00
分享

大模型的计量单位token指的是什么

令牌(Token)是指模型处理和生成文本的基本单位。token可以是词或者字符的片段。模型的输入和输出的文本都会被转换成token,然后根据模型的概率分布进行采样或计算。

例如,在英文中,有些组合单词会根据语义拆分,如overweight会被设计为2个token:“over”、“weight”。在中文中有些汉字会根据语义被整合,如“等于”、“王者荣耀”。

在盘古大模型中,N1系列模型为例,盘古1token≈0.75个英文单词,1token≈1.5汉字。不同模型的具体情况详见表1

表1 token比

模型规格

token比(token/英文单词)

token比(token/汉字)

N1系列模型

0.75

1.5

N2系列模型(不包含盘古-NLP-N2-基础功能模型-4K-Preview)

0.88

1.24

盘古-NLP-N2-基础功能模型-4K-Preview

0.86

1.69

N3系列模型

0.77

1

N4系列模型

0.75

1.5

相关文档