AI 模型类型速查指南

30 June 2026
一文搞懂 Text、Multimodal、Reasoning、Image Generation 等各类 AI 模型的区别和代表产品。

AI 模型类型总览

类型 图标 用途 代表模型 备注
Text 📝 聊天、写代码、翻译、总结文本 Llama 4、Qwen 3.5、GPT-4.5、DeepSeek V4 最常见
Multimodal / Vision 👁️ 看懂图片、视频内容 GPT-4o、Gemini 2.5 Pro、Gemini 2 Flash 理解图片,非生成
Reasoning 🧠 解数学题、逻辑推理、复杂算法 DeepSeek R1 Zero、o3-mini、Claude 3.7 Sonnet 慢但准
Image Generation 🎨 从文字生成图片 Flux 1.1 Pro、SD 3.5、DALL-E 3 免费列表暂无
OCR 🔍 图片转文字 DeepSeek-OCR V2、PaddleOCR v3 专用工具
Embedding 🔗 文本向量化(用于检索) BGE M3、GTE-Qwen、Jina Embeddings v2 专用工具
Reranker 📊 搜索结果重排序 BGE Reranker v3、Jina Reranker v2 专用工具
ASR / TTS 🎤 语音转文字 / 文字转语音 Whisper v3、SenseVoice、Kokoro v1.5 专用工具

易混淆对比

图像理解 vs 图像生成:完全不同的两类模型

  • 图像理解:你给它一张图,它告诉你图里有什么(👁️ 看图片)
  • 图像生成:你给它一段文字,它画出一张图(🎨 画图片)

Claude 系列说明

模型 类型 定位
Opus Text + Multimodal Claude 旗舰级,推理和多模态理解能力极强
Sonnet Text + Multimodal 主力模型,性能与速度平衡,日常首选
Haiku Text + Multimodal 轻量级,极速响应、低延迟

💡 Claude 全系都支持多模态(看图片),只是能力强弱不同。

Thinking / 扩展思考支持

模型 多模态 Thinking / 扩展思考
Opus ✅ 支持 ✅ 有深度推理能力
Sonnet 3.7 ✅ 支持 支持 extended thinking(2025年新特性)
Haiku ✅ 支持 ❌ 不支持

什么是多模态?

模态 = 信息的表现形式

多模态 = 同时处理多种不同形式的信息

常见模态类型

  • 📝 文本:对话、文章、代码
  • 👁️ 图像:图片、照片、截图
  • 🎥 视频:短视频、监控画面
  • 🎤 音频:语音、音乐、声音

关键区分:输入 vs 输出

能力 行为 术语
图像理解 你给它图,它告诉你图里有什么 这就是 多模态
图像生成 你给它文字,它给你画出一张图 这是生成式AI,不是多模态的必要条件

💡 理解图片就叫多模态了!不需要能生成图片。

现在绝大多数多模态模型(GPT-4o、Claude、Gemini)都只能理解图片,不能生成图片。

免费模型现状

当前免费模型列表中没有图像生成模型(Stable Diffusion、DALL-E 等),只有以下几类:

  • ✅ Text(最多)
  • ✅ Reasoning(推理模型)
  • ✅ Multimodal(多模态/视觉理解)
  • ✅ 专用工具(OCR、Embedding、ASR 等)

总结

模型确实很多,但按功能来分就很清晰了。记住这几个核心分类,就不会被各种名词绕晕:

  • 📝 Text:说话写字
  • 👁️ Vision:看图片(理解)
  • 🧠 Reasoning:动脑子解题
  • 🎨 Image Gen:画图片(生成)
  • 🔧 其他:专门工具

原文链接: AI 模型类型速查指南 ,转载请注明来源!

EOF