Tokenizer 检视器

Tokenizer 词表 ID 可视化

加载 HuggingFace tokenizer.json 或 tiktoken .model 文件，在一个更清爽的界面里查看词表 ID、解码结果、合并规则和分布图表。

支持拖入本地 tokenizer 文件，也可以直接从远程地址读取。

并排对比原始词元、解码结果、ID 和合并优先级。

加载来源

导入 tokenizer JSON

解析和可视化都在浏览器内完成。你可以直接使用下面的示例地址，也可以替换成自己的 tokenizer 导出文件。

将 tokenizer.json 或 .model 拖到这里

支持 HuggingFace tokenizer.json 和 tiktoken .model 格式

快速选择:

远程地址

可以先使用上方示例 URL，或者拖入你自己的 tokenizer 文件来查看 ID、合并规则和解码结果。

词元总数

特殊词元

普通词元

ID 范围

平均词元长度

词元长度中位数

合并规则数

ID 连续性检测中...

正则

显示 0 个词元

# ↕	原始词元 ↕	解码结果（可读） ↕	ID ↕	类型 ↕	长度 ↕	操作

第 1 页，共 1 页

BPE 合并规则定义了子词如何被组合。#1 表示最高优先级。每一行都会展示 左侧 + 右侧 → 合并结果，并附带可读的解码结果。

正则

显示 0 条合并规则

优先级 ↕	左侧（原始） ↕	右侧（原始） ↕	+	左侧（解码） ↕	右侧（解码） ↕	→	合并后（解码） ↕	结果 ID

第 1 页，共 1 页

输入任意文本，查看分词结果。每个 token 会以不同颜色高亮显示，下标为其 ID。

请先输入文本，然后点击「分词」按钮