Token 概念

在模型服务中，一个核心概念是“token”。当您调用模型进行推理服务时，输入内容会首先经过分词处理，转换成模型能够识别的token形式。随后，这些token经过模型的处理，再以token的形式输出，并最终转化为您所需的文本。

模型服务费用 = token 使用数量 * token 单价

说明

不同的模型可能采用不同的分词策略，同一段文本在不同模型上的 tokens 计量会存在差异。

产品价格

按 token 使用量付费

模型名称		服务类型	计费单位 (元/百万tokens)	免费额度（tokens）
DeepSeek系列	DeepSeek-R1	输入	4	每个模型可免费使用2500万tokens，从第一次使用开始限期两周。免费额度用完或到期后，可以付费开通服务。
	DeepSeek-R1	输出	16
	DeepSeek-V3	输入	2
	DeepSeek-V3	输出	8
	DeepSeek-R1-Distill-Llama-70B	输入	4.1
	DeepSeek-R1-Distill-Llama-70B	输出	4.1
	DeepSeek-R1-Distill-Qwen-32B	输入	1.3
	DeepSeek-R1-Distill-Qwen-32B	输出	1.3
其他系列	每个模型可免费使用100万tokens，用尽后不支持tokens计费模式，可以通过按卡时计费模式下单。

模型推理限制

当前对模型设置了 RPM（Requests Per Minute，每分钟请求数）及 TPM（Tokens Per Minute，每分钟 token 数量）的调用限制，具体限制可在模型广场模型详情页中查看。