模型目录

Routic 通过一个 API 接口提供精选 AI 模型。所有模型共用同一个 Base URL，在请求中用 model 参数选择具体模型。

Base URL

https://api.routic.ai/v1

认证方式

所有请求需要在 HTTP 头中携带 API Key（sk- 开头）：

Authorization: Bearer sk-xxxxxxxx

如何选择模型

在请求体中使用 model 参数。支持两种命名方式：

方式一：标准模型名（推荐）

使用行业公认的模型标识符，直接指定具体型号：

{
  "model": "deepseek-r1",
  "messages": [{ "role": "user", "content": "你好" }]
}

方式二：智能路由名

使用 Routic 管理的路由标识符，Routic 会自动选择该能力下最优的模型：

{
  "model": "auto/reasoning",
  "messages": [{ "role": "user", "content": "你好" }]
}

两种方式走同一个接口（/v1/chat/completions）。标准模型名给你精确控制；智能路由名让 Routic 在后台优化路由。

可用模型

推理模型

推理模型在响应前会进行扩展思维链处理。擅长复杂问题求解、数学推理和逻辑密集型任务。

标准模型名	类型	上下文长度	最大输出	推理	工具调用	价格（输入）	价格（输出）	缓存（输入）
`deepseek-r1`	推理	64K	8K	是	是	$0.55/M	$2.00/M	$0.055/M
`deepseek-r1-0528`	推理	64K	8K	是	是	$0.35/M	$1.70/M	$0.035/M
`qwq-32b`	推理	128K	8K	是	是	$0.12/M	$0.45/M	$0.012/M

通用对话模型

通用对话模型，针对速度和成本优化。适用于日常问答、摘要和内容生成。

标准模型名	类型	上下文长度	最大输出	推理	工具调用	价格（输入）	价格（输出）	缓存（输入）
`deepseek-v3`	对话	64K	8K	否	是	$0.25/M	$0.70/M	$0.025/M
`deepseek-v3-0324`	对话	64K	8K	否	是	$0.16/M	$0.60/M	$0.016/M
`deepseek-v3.1`	对话	128K	8K	否	是	$0.12/M	$0.60/M	$0.012/M
`deepseek-v3.2`	对话	128K	8K	否	是	$0.20/M	$0.30/M	$0.020/M
`minimax-m2.5`	对话/编程	1M	8K	否	是	$0.10/M	$0.80/M	$0.010/M

代码模型

针对代码生成、编程辅助和软件工程任务优化的模型。

标准模型名	类型	上下文长度	最大输出	推理	工具调用	价格（输入）	价格（输出）	缓存（输入）
`qwen3-coder-plus`	编程	1M	65K	否	是	$0.65/M	$3.25/M	—

蒸馏模型（性价比）

头部模型的蒸馏版本，在较低成本下提供良好性能。适合高流量、对延迟敏感的工作负载。蒸馏模型基于推理输出训练，但不支持 thinking API 参数。

标准模型名	类型	上下文长度	最大输出	推理	工具调用	价格（输入）	价格（输出）	缓存（输入）
`deepseek-r1-distill-qwen-32b`	对话	64K	8K	否	是	$0.23/M	$0.23/M	$0.023/M
`deepseek-r1-distill-qwen-14b`	对话	64K	8K	否	是	$0.15/M	$0.15/M	$0.015/M
`deepseek-r1-distill-llama-70b`	对话	128K	8K	否	是	$0.55/M	$0.65/M	$0.055/M

合作模型

通过合作商基础设施托管的模型，具有特定路由配置。

标准模型名	类型	上下文长度	最大输出	推理	工具调用	价格（输入）	价格（输出）	缓存（输入）
`beijing-unicom-qwen3-32b`	对话	32K	8K	否	是	联系销售	联系销售	—
`beijing-unicom-qwen3.5-397b`	推理	128K	8K	是	是	联系销售	联系销售	—

可用性说明：deepseek-r1-0528 和 deepseek-v3-0324 已列入可售 SKU，但上游部署可能临时不可用。如需保证可用性，建议使用 deepseek-r1 或 deepseek-v3，或开启智能路由以自动容灾。

缓存定价：「缓存（输入）」列展示每个模型的缓存命中费率。横线（—）表示该模型暂未公布缓存命中价，请以控制台为准。详见上下文缓存。

模型参数参考

思维链模式（推理）

模型	思维链支持	启用方式	`temperature` / `top_p`
`deepseek-r1`	自动开启	自动；或 `thinking: { "type": "enabled" }`	固定值；设了不报错但无效
`deepseek-r1-0528`	自动开启	自动；或 `thinking: { "type": "enabled" }`	固定值；设了不报错但无效
`qwq-32b`	手动开启	`thinking: { "type": "enabled" }`	正常范围（0–2）
`beijing-unicom-qwen3.5-397b`	手动开启	`thinking: { "type": "enabled" }`	正常范围（0–2）
其他所有模型	不支持	—	正常范围（0–2）

详见思维链模式。

上下文缓存

上下文缓存在所有模型上默认开启。缓存命中 token 按更低费率计费（约为标准输入价的 1/10）。模型表格中的「缓存（输入）」列展示每个模型的缓存命中价。

详见上下文缓存了解详情和最佳实践。

API 接口

所有模型共用以下 API 接口：

接口	路径	方法
对话补全	`/v1/chat/completions`	POST
模型列表	`/v1/models`	GET

能力矩阵

模型	推理	工具调用	流式输出	JSON 模式	上下文缓存
`deepseek-r1`	是	是	是	是	是
`deepseek-r1-0528`	是	是	是	是	是
`deepseek-v3`	否	是	是	是	是
`deepseek-v3-0324`	否	是	是	是	是
`deepseek-v3.1`	否	是	是	是	是
`deepseek-v3.2`	否	是	是	是	是
`qwq-32b`	是	是	是	是	是
`minimax-m2.5`	否	是	是	有限	是
`qwen3-coder-plus`	否	是	是	是	是
`deepseek-r1-distill-qwen-32b`	否	是	是	是	是
`deepseek-r1-distill-qwen-14b`	否	是	是	是	是
`deepseek-r1-distill-llama-70b`	否	是	是	是	是
`beijing-unicom-qwen3-32b`	否	是	是	是	是
`beijing-unicom-qwen3.5-397b`	是	是	是	是	是

说明：「推理」指扩展思维链处理（思维链模式），标记为「是」的模型支持 thinking 参数。「工具调用」指支持 tools / tool_choice 参数。

速率限制

每个 API Key 有默认的 RPM（每分钟请求数）和 TPM（每分钟 token 数）限制。默认值：

限制	值
默认 RPM	100
默认 TPM	10,000
最大 RPM（上限）	1,000
最大 TPM（上限）	100,000
最大预算周期	90 天

如需更高限制，请联系支持。

模型选择建议

使用标准模型名，获得可预测的行为和可复现的结果。
推理模型（deepseek-r1、qwq-32b）用于数学、逻辑和复杂分析。
通用对话模型（deepseek-v3.*）用于问答、摘要和内容生成。
代码模型（qwen3-coder-plus）用于代码生成、重构和编程辅助。
蒸馏模型用于高流量、成本敏感且对延迟有要求的工作负载。
超长上下文用 minimax-m2.5（最高 1M tokens）。
开启上下文缓存用于多轮对话中重复上下文（默认开启）。
使用智能路由用于自动容灾，模型上下线不中断服务。

即将推出

以下功能已规划但尚未可用：

视觉模型（图像理解）
视频生成
Embedding / 向量模型
FIM（代码补全）Completion