AI 模型类型速查指南

30 June 2026

一文搞懂 Text、Multimodal、Reasoning、Image Generation 等各类 AI 模型的区别和代表产品。

AI 模型类型总览

类型	图标	用途	代表模型	备注
Text	📝	聊天、写代码、翻译、总结文本	Llama 4、Qwen 3.5、GPT-4.5、DeepSeek V4	最常见
Multimodal / Vision	👁️	看懂图片、视频内容	GPT-4o、Gemini 2.5 Pro、Gemini 2 Flash	理解图片，非生成
Reasoning	🧠	解数学题、逻辑推理、复杂算法	DeepSeek R1 Zero、o3-mini、Claude 3.7 Sonnet	慢但准
Image Generation	🎨	从文字生成图片	Flux 1.1 Pro、SD 3.5、DALL-E 3	免费列表暂无
OCR	🔍	图片转文字	DeepSeek-OCR V2、PaddleOCR v3	专用工具
Embedding	🔗	文本向量化（用于检索）	BGE M3、GTE-Qwen、Jina Embeddings v2	专用工具
Reranker	📊	搜索结果重排序	BGE Reranker v3、Jina Reranker v2	专用工具
ASR / TTS	🎤	语音转文字 / 文字转语音	Whisper v3、SenseVoice、Kokoro v1.5	专用工具

图像理解 vs 图像生成：完全不同的两类模型

图像理解：你给它一张图，它告诉你图里有什么（👁️ 看图片）

图像生成：你给它一段文字，它画出一张图（🎨 画图片）

💡 Claude 全系都支持多模态（看图片），只是能力强弱不同。

模态 = 信息的表现形式

多模态 = 同时处理多种不同形式的信息

能力	行为	术语
图像理解	你给它图，它告诉你图里有什么	这就是多模态
图像生成	你给它文字，它给你画出一张图	这是生成式AI，不是多模态的必要条件

💡 理解图片就叫多模态了！不需要能生成图片。

现在绝大多数多模态模型（GPT-4o、Claude、Gemini）都只能理解图片，不能生成图片。

当前免费模型列表中没有图像生成模型（Stable Diffusion、DALL-E 等），只有以下几类：

模型确实很多，但按功能来分就很清晰了。记住这几个核心分类，就不会被各种名词绕晕：

原文链接： AI 模型类型速查指南，转载请注明来源！

– EOF –