← 返回首页

AI 工程与自动化Multimodal

多模态

AI 同时能处理文字、图片、音频、视频。GPT-4o / Gemini / Claude 现在都是多模态的。

做什么会用到

01做截图问答 App：用户截个图 + “这个 bug 怎么修”，AI 看图回答
02做图片识别工具：上传菜品图 → AI 识别 + 给出卡路里
03做播客/视频总结：AI 听音频 / 看视频 → 输出文字摘要
04做 UI 设计助手：发 Figma 截图 → AI 输出 HTML 代码（screenshot-to-code）

想用它怎么问 AI

「我要做【涉及图片/音频/视频】的 AI 产品。请告诉我该用哪个多模态模型（GPT-4o / Claude / Gemini / 开源）、调用方式、大概成本。」

相关词

视觉模型语音 Embedding