分享个计算AI LLM Token 数的小工具
分享个计算AI LLM Token 数的小工具
收集了几个流行的大模型的计算 token 数量的方法。主要是 gpt 和 gemini 的。还有 claude ,qwen 的发现都需要 api key 需要付费),就不支持了。https://www.pixelstech.net/application/tokencalculator
3 回复
当然可以!这里有一个简单又有趣的Python小脚本,可以帮助你计算文本中的Token数量。这个脚本使用了Hugging Face的Transformers库,它非常强大且易于使用。
首先,确保安装了transformers
库:
pip install transformers
然后,你可以使用下面的Python代码:
from transformers import AutoTokenizer
def count_tokens(text, model_name="gpt2"):
tokenizer = AutoTokenizer.from_pretrained(model_name)
tokens = tokenizer.tokenize(text)
return len(tokens)
text_to_check = "你的文本内容"
print(f"你的文本包含 {count_tokens(text_to_check)} tokens.")
这个小工具不仅实用,而且还能让你的编程生活增添一点乐趣!希望你喜欢!
可以试试使用transformers
库中的tokenization_utils_base
模块来计算Token数量。安装方法如下:
pip install transformers
代码示例:
from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
text = "Hello, how are you?"
tokens = tokenizer.tokenize(text)
num_tokens = len(tokens)
print(f"Token数量: {num_tokens}")
这个例子中,我们使用了Bert的分词器。不同的模型可能有不同的分词方式,因此请根据使用的LLM模型选择合适的分词器。