Tokenizer 检视器
Tokenizer 词表 ID 可视化
加载 HuggingFace tokenizer.json 或 tiktoken .model 文件,在一个更清爽的界面里查看词表 ID、解码结果、合并规则和分布图表。
加载来源
导入 tokenizer JSON
解析和可视化都在浏览器内完成。你可以直接使用下面的示例地址,也可以替换成自己的 tokenizer 导出文件。
将
tokenizer.json 或 .model 拖到这里支持 HuggingFace tokenizer.json 和 tiktoken .model 格式
还没有加载任何内容
可以先使用上方示例 URL,或者拖入你自己的 tokenizer 文件来查看 ID、合并规则和解码结果。
0
词元总数
0
特殊词元
0
普通词元
-
ID 范围
0
平均词元长度
0
词元长度中位数
0
合并规则数
词元长度分布
词元分类
ID 分布
ID 连续性检测中...
显示 0 个词元
| # ↕ | 原始词元 ↕ | 解码结果(可读) ↕ | ID ↕ | 类型 ↕ | 长度 ↕ | 操作 |
|---|
第 1 页,共 1 页
BPE 合并规则定义了子词如何被组合。#1 表示最高优先级。每一行都会展示 左侧 + 右侧 → 合并结果,并附带可读的解码结果。
显示 0 条合并规则
| 优先级 ↕ | 左侧(原始) ↕ | 右侧(原始) ↕ | + | 左侧(解码) ↕ | 右侧(解码) ↕ | → | 合并后(解码) ↕ | 结果 ID |
|---|
第 1 页,共 1 页
输入任意文本,查看分词结果。每个 token 会以不同颜色高亮显示,下标为其 ID。
请先输入文本,然后点击「分词」按钮