模型目录
Routic 通过一个 API 接口提供精选 AI 模型。所有模型共用同一个 Base URL,在请求中用 model 参数选择具体模型。
Base URL
https://api.routic.ai/v1
认证方式
所有请求需要在 HTTP 头中携带 API Key(sk- 开头):
Authorization: Bearer sk-xxxxxxxx
如何选择模型
在请求体中使用 model 参数。支持两种命名方式:
方式一:标准模型名(推荐)
使用行业公认的模型标识符,直接指定具体型号:
{
"model": "deepseek-r1",
"messages": [{ "role": "user", "content": "你好" }]
}
方式二:智能路由名
使用 Routic 管理的路由标识符,Routic 会自动选择该能力下最优的模型:
{
"model": "auto/reasoning",
"messages": [{ "role": "user", "content": "你好" }]
}
两种方式走同一个接口(/v1/chat/completions)。标准模型名给你精确控制;智能路由名让 Routic 在后台优化路由。
可用模型
推理模型
推理模型在响应前会进行扩展思维链处理。擅长复杂问题求解、数学推理和逻辑密集型任务。
| 标准模型名 | 类型 | 上下文长度 | 最大输出 | 推理 | 工具调用 | 价格(输入) | 价格(输出) | 缓存(输入) |
|---|---|---|---|---|---|---|---|---|
deepseek-r1 | 推理 | 64K | 8K | 是 | 是 | $0.55/M | $2.00/M | $0.055/M |
deepseek-r1-0528 | 推理 | 64K | 8K | 是 | 是 | $0.35/M | $1.70/M | $0.035/M |
qwq-32b | 推理 | 128K | 8K | 是 | 是 | $0.12/M | $0.45/M | $0.012/M |
通用对话模型
通用对话模型,针对速度和成本优化。适用于日常问答、摘要和内容生成。
| 标准模型名 | 类型 | 上下文长度 | 最大输出 | 推理 | 工具调用 | 价格(输入) | 价格(输出) | 缓存(输入) |
|---|---|---|---|---|---|---|---|---|
deepseek-v3 | 对话 | 64K | 8K | 否 | 是 | $0.25/M | $0.70/M | $0.025/M |
deepseek-v3-0324 | 对话 | 64K | 8K | 否 | 是 | $0.16/M | $0.60/M | $0.016/M |
deepseek-v3.1 | 对话 | 128K | 8K | 否 | 是 | $0.12/M | $0.60/M | $0.012/M |
deepseek-v3.2 | 对话 | 128K | 8K | 否 | 是 | $0.20/M | $0.30/M | $0.020/M |
minimax-m2.5 | 对话/编程 | 1M | 8K | 否 | 是 | $0.10/M | $0.80/M | $0.010/M |
代码模型
针对代码生成、编程辅助和软件工程任务优化的模型。
| 标准模型名 | 类型 | 上下文长度 | 最大输出 | 推理 | 工具调用 | 价格(输入) | 价格(输出) | 缓存(输入) |
|---|---|---|---|---|---|---|---|---|
qwen3-coder-plus | 编程 | 1M | 65K | 否 | 是 | $0.65/M | $3.25/M | — |
蒸馏模型(性价比)
头部模型的蒸馏版本,在较低成本下提供良好性能。适合高流量、对延迟敏感的工作负载。蒸馏模型基于推理输出训练,但不支持 thinking API 参数。
| 标准模型名 | 类型 | 上下文长度 | 最大输出 | 推理 | 工具调用 | 价格(输入) | 价格(输出) | 缓存(输入) |
|---|---|---|---|---|---|---|---|---|
deepseek-r1-distill-qwen-32b | 对话 | 64K | 8K | 否 | 是 | $0.23/M | $0.23/M | $0.023/M |
deepseek-r1-distill-qwen-14b | 对话 | 64K | 8K | 否 | 是 | $0.15/M | $0.15/M | $0.015/M |
deepseek-r1-distill-llama-70b | 对话 | 128K | 8K | 否 | 是 | $0.55/M | $0.65/M | $0.055/M |
合作模型
通过合作商基础设施托管的模型,具有特定路由配置。
| 标准模型名 | 类型 | 上下文长度 | 最大输出 | 推理 | 工具调用 | 价格(输入) | 价格(输出) | 缓存(输入) |
|---|---|---|---|---|---|---|---|---|
beijing-unicom-qwen3-32b | 对话 | 32K | 8K | 否 | 是 | 联系销售 | 联系销售 | — |
beijing-unicom-qwen3.5-397b | 推理 | 128K | 8K | 是 | 是 | 联系销售 | 联系销售 | — |
可用性说明:
deepseek-r1-0528和deepseek-v3-0324已列入可售 SKU,但上游部署可能临时不可用。如需保证可用性,建议使用deepseek-r1或deepseek-v3,或开启智能路由以自动容灾。
缓存定价:「缓存(输入)」列展示每个模型的缓存命中费率。横线(—)表示该模型暂未公布缓存命中价,请以控制台为准。详见上下文缓存。
模型参数参考
思维链模式(推理)
| 模型 | 思维链支持 | 启用方式 | temperature / top_p |
|---|---|---|---|
deepseek-r1 | 自动开启 | 自动;或 thinking: { "type": "enabled" } | 固定值;设了不报错但无效 |
deepseek-r1-0528 | 自动开启 | 自动;或 thinking: { "type": "enabled" } | 固定值;设了不报错但无效 |
qwq-32b | 手动开启 | thinking: { "type": "enabled" } | 正常范围(0–2) |
beijing-unicom-qwen3.5-397b | 手动开启 | thinking: { "type": "enabled" } | 正常范围(0–2) |
| 其他所有模型 | 不支持 | — | 正常范围(0–2) |
详见思维链模式。
上下文缓存
上下文缓存在所有模型上默认开启。缓存命中 token 按更低费率计费(约为标准输入价的 1/10)。模型表格中的「缓存(输入)」列展示每个模型的缓存命中价。
详见上下文缓存了解详情和最佳实践。
API 接口
所有模型共用以下 API 接口:
| 接口 | 路径 | 方法 |
|---|---|---|
| 对话补全 | /v1/chat/completions | POST |
| 模型列表 | /v1/models | GET |
能力矩阵
| 模型 | 推理 | 工具调用 | 流式输出 | JSON 模式 | 上下文缓存 |
|---|---|---|---|---|---|
deepseek-r1 | 是 | 是 | 是 | 是 | 是 |
deepseek-r1-0528 | 是 | 是 | 是 | 是 | 是 |
deepseek-v3 | 否 | 是 | 是 | 是 | 是 |
deepseek-v3-0324 | 否 | 是 | 是 | 是 | 是 |
deepseek-v3.1 | 否 | 是 | 是 | 是 | 是 |
deepseek-v3.2 | 否 | 是 | 是 | 是 | 是 |
qwq-32b | 是 | 是 | 是 | 是 | 是 |
minimax-m2.5 | 否 | 是 | 是 | 有限 | 是 |
qwen3-coder-plus | 否 | 是 | 是 | 是 | 是 |
deepseek-r1-distill-qwen-32b | 否 | 是 | 是 | 是 | 是 |
deepseek-r1-distill-qwen-14b | 否 | 是 | 是 | 是 | 是 |
deepseek-r1-distill-llama-70b | 否 | 是 | 是 | 是 | 是 |
beijing-unicom-qwen3-32b | 否 | 是 | 是 | 是 | 是 |
beijing-unicom-qwen3.5-397b | 是 | 是 | 是 | 是 | 是 |
说明:「推理」指扩展思维链处理(思维链模式),标记为「是」的模型支持
thinking参数。「工具调用」指支持tools/tool_choice参数。
速率限制
每个 API Key 有默认的 RPM(每分钟请求数)和 TPM(每分钟 token 数)限制。默认值:
| 限制 | 值 |
|---|---|
| 默认 RPM | 100 |
| 默认 TPM | 10,000 |
| 最大 RPM(上限) | 1,000 |
| 最大 TPM(上限) | 100,000 |
| 最大预算周期 | 90 天 |
如需更高限制,请联系支持。
模型选择建议
- 使用标准模型名,获得可预测的行为和可复现的结果。
- 推理模型(
deepseek-r1、qwq-32b)用于数学、逻辑和复杂分析。 - 通用对话模型(
deepseek-v3.*)用于问答、摘要和内容生成。 - 代码模型(
qwen3-coder-plus)用于代码生成、重构和编程辅助。 - 蒸馏模型用于高流量、成本敏感且对延迟有要求的工作负载。
- 超长上下文用
minimax-m2.5(最高 1M tokens)。 - 开启上下文缓存用于多轮对话中重复上下文(默认开启)。
- 使用智能路由用于自动容灾,模型上下线不中断服务。
即将推出
以下功能已规划但尚未可用:
- 视觉模型(图像理解)
- 视频生成
- Embedding / 向量模型
- FIM(代码补全)Completion