模型目录

Routic 通过一个 API 接口提供精选 AI 模型。所有模型共用同一个 Base URL,在请求中用 model 参数选择具体模型。

Base URL

https://api.routic.ai/v1

认证方式

所有请求需要在 HTTP 头中携带 API Key(sk- 开头):

Authorization: Bearer sk-xxxxxxxx

如何选择模型

在请求体中使用 model 参数。支持两种命名方式:

方式一:标准模型名(推荐)

使用行业公认的模型标识符,直接指定具体型号:

{
  "model": "deepseek-r1",
  "messages": [{ "role": "user", "content": "你好" }]
}

方式二:智能路由名

使用 Routic 管理的路由标识符,Routic 会自动选择该能力下最优的模型:

{
  "model": "auto/reasoning",
  "messages": [{ "role": "user", "content": "你好" }]
}

两种方式走同一个接口(/v1/chat/completions)。标准模型名给你精确控制;智能路由名让 Routic 在后台优化路由。


可用模型

推理模型

推理模型在响应前会进行扩展思维链处理。擅长复杂问题求解、数学推理和逻辑密集型任务。

标准模型名类型上下文长度最大输出推理工具调用价格(输入)价格(输出)缓存(输入)
deepseek-r1推理64K8K$0.55/M$2.00/M$0.055/M
deepseek-r1-0528推理64K8K$0.35/M$1.70/M$0.035/M
qwq-32b推理128K8K$0.12/M$0.45/M$0.012/M

通用对话模型

通用对话模型,针对速度和成本优化。适用于日常问答、摘要和内容生成。

标准模型名类型上下文长度最大输出推理工具调用价格(输入)价格(输出)缓存(输入)
deepseek-v3对话64K8K$0.25/M$0.70/M$0.025/M
deepseek-v3-0324对话64K8K$0.16/M$0.60/M$0.016/M
deepseek-v3.1对话128K8K$0.12/M$0.60/M$0.012/M
deepseek-v3.2对话128K8K$0.20/M$0.30/M$0.020/M
minimax-m2.5对话/编程1M8K$0.10/M$0.80/M$0.010/M

代码模型

针对代码生成、编程辅助和软件工程任务优化的模型。

标准模型名类型上下文长度最大输出推理工具调用价格(输入)价格(输出)缓存(输入)
qwen3-coder-plus编程1M65K$0.65/M$3.25/M

蒸馏模型(性价比)

头部模型的蒸馏版本,在较低成本下提供良好性能。适合高流量、对延迟敏感的工作负载。蒸馏模型基于推理输出训练,但不支持 thinking API 参数。

标准模型名类型上下文长度最大输出推理工具调用价格(输入)价格(输出)缓存(输入)
deepseek-r1-distill-qwen-32b对话64K8K$0.23/M$0.23/M$0.023/M
deepseek-r1-distill-qwen-14b对话64K8K$0.15/M$0.15/M$0.015/M
deepseek-r1-distill-llama-70b对话128K8K$0.55/M$0.65/M$0.055/M

合作模型

通过合作商基础设施托管的模型,具有特定路由配置。

标准模型名类型上下文长度最大输出推理工具调用价格(输入)价格(输出)缓存(输入)
beijing-unicom-qwen3-32b对话32K8K联系销售联系销售
beijing-unicom-qwen3.5-397b推理128K8K联系销售联系销售

可用性说明deepseek-r1-0528deepseek-v3-0324 已列入可售 SKU,但上游部署可能临时不可用。如需保证可用性,建议使用 deepseek-r1deepseek-v3,或开启智能路由以自动容灾。

缓存定价:「缓存(输入)」列展示每个模型的缓存命中费率。横线(—)表示该模型暂未公布缓存命中价,请以控制台为准。详见上下文缓存


模型参数参考

思维链模式(推理)

模型思维链支持启用方式temperature / top_p
deepseek-r1自动开启自动;或 thinking: { "type": "enabled" }固定值;设了不报错但无效
deepseek-r1-0528自动开启自动;或 thinking: { "type": "enabled" }固定值;设了不报错但无效
qwq-32b手动开启thinking: { "type": "enabled" }正常范围(0–2)
beijing-unicom-qwen3.5-397b手动开启thinking: { "type": "enabled" }正常范围(0–2)
其他所有模型不支持正常范围(0–2)

详见思维链模式

上下文缓存

上下文缓存在所有模型上默认开启。缓存命中 token 按更低费率计费(约为标准输入价的 1/10)。模型表格中的「缓存(输入)」列展示每个模型的缓存命中价。

详见上下文缓存了解详情和最佳实践。

API 接口

所有模型共用以下 API 接口:

接口路径方法
对话补全/v1/chat/completionsPOST
模型列表/v1/modelsGET

能力矩阵

模型推理工具调用流式输出JSON 模式上下文缓存
deepseek-r1
deepseek-r1-0528
deepseek-v3
deepseek-v3-0324
deepseek-v3.1
deepseek-v3.2
qwq-32b
minimax-m2.5有限
qwen3-coder-plus
deepseek-r1-distill-qwen-32b
deepseek-r1-distill-qwen-14b
deepseek-r1-distill-llama-70b
beijing-unicom-qwen3-32b
beijing-unicom-qwen3.5-397b

说明:「推理」指扩展思维链处理(思维链模式),标记为「是」的模型支持 thinking 参数。「工具调用」指支持 tools / tool_choice 参数。

速率限制

每个 API Key 有默认的 RPM(每分钟请求数)和 TPM(每分钟 token 数)限制。默认值:

限制
默认 RPM100
默认 TPM10,000
最大 RPM(上限)1,000
最大 TPM(上限)100,000
最大预算周期90 天

如需更高限制,请联系支持。

模型选择建议

  1. 使用标准模型名,获得可预测的行为和可复现的结果。
  2. 推理模型deepseek-r1qwq-32b)用于数学、逻辑和复杂分析。
  3. 通用对话模型deepseek-v3.*)用于问答、摘要和内容生成。
  4. 代码模型qwen3-coder-plus)用于代码生成、重构和编程辅助。
  5. 蒸馏模型用于高流量、成本敏感且对延迟有要求的工作负载。
  6. 超长上下文用 minimax-m2.5(最高 1M tokens)。
  7. 开启上下文缓存用于多轮对话中重复上下文(默认开启)。
  8. 使用智能路由用于自动容灾,模型上下线不中断服务。

即将推出

以下功能已规划但尚未可用:

  • 视觉模型(图像理解)
  • 视频生成
  • Embedding / 向量模型
  • FIM(代码补全)Completion

相关文档