← 返回首页

AI 工程与自动化Inference

推理

模型“真正干活”的那一刻：接输入、吐输出。训练是学习，推理是考试。

做什么会用到

01做 AI 产品：每次用户提问就是一次推理，是主要成本来源
02做实时聊天：推理要快（<2 秒）不然用户关掉页面
03做批量处理（如翻译 10000 篇）：用 Batch 推理比实时便宜 50%
04自己部署开源模型：GPU 选型、批次大小、量化都会影响推理速度

想用它怎么问 AI

「我要做【XXX AI 产品】，预计每天【X】次调用。请告诉我用 API 调用 vs 自己部署，每种方案的推理速度、月成本、运维复杂度。」

相关词

训练延迟 Token