返回首页

推理

模型“真正干活”的那一刻:接输入、吐输出。训练是学习,推理是考试。

做什么会用到

  • 01做 AI 产品:每次用户提问就是一次推理,是主要成本来源
  • 02做实时聊天:推理要快(<2 秒)不然用户关掉页面
  • 03做批量处理(如翻译 10000 篇):用 Batch 推理比实时便宜 50%
  • 04自己部署开源模型:GPU 选型、批次大小、量化都会影响推理速度

想用它怎么问 AI

我要做【XXX AI 产品】,预计每天【X】次调用。请告诉我用 API 调用 vs 自己部署,每种方案的推理速度、月成本、运维复杂度。

相关词

训练延迟Token