返回首页

多模态

AI 同时能处理文字、图片、音频、视频。GPT-4o / Gemini / Claude 现在都是多模态的。

做什么会用到

  • 01做截图问答 App:用户截个图 + “这个 bug 怎么修”,AI 看图回答
  • 02做图片识别工具:上传菜品图 → AI 识别 + 给出卡路里
  • 03做播客/视频总结:AI 听音频 / 看视频 → 输出文字摘要
  • 04做 UI 设计助手:发 Figma 截图 → AI 输出 HTML 代码(screenshot-to-code)

想用它怎么问 AI

我要做【涉及图片/音频/视频】的 AI 产品。请告诉我该用哪个多模态模型(GPT-4o / Claude / Gemini / 开源)、调用方式、大概成本。

相关词

视觉模型语音Embedding