AI模型名称里的密码:如何从名字读懂模型类型与架构
面对琳琅满目的模型名称,本文教你从命名规则中快速识别模型的厂商、版本、参数量、能力取向和架构特征。
- 概述
- 一、基础结构:名字里通常包含哪些信息
- 二、参数规模:B、M 与数字的玄机
- 三、能力后缀:Instruct、Coder、VL、Thinking 都代表什么
- 四、各大厂商的命名风格
- 五、进阶技巧:一眼识别模型特征
- 六、总结
概述
打开 Cyeam AI 免费模型榜单,满屏的模型名称常常让人眼花缭乱:Qwen/Qwen3-8B、DeepSeek-R1-Distill-Qwen-7B、nousresearch/hermes-3-llama-3.1-405b:free……这些看似随机的字符串,其实是一套高度结构化的命名体系。只要掌握规则,你就能从名字里读出模型的厂商归属、世代版本、参数规模、能力取向,甚至是底层架构。
本文以榜单中常见的模型为例,系统拆解 AI 模型的命名密码。
一、基础结构:名字里通常包含哪些信息
绝大多数模型名可以拆解为以下几个部分:
[厂商/组织] / [系列名] - [版本/代际] - [参数规模] - [能力后缀]
以 Qwen/Qwen2.5-7B-Instruct 为例:
| 片段 | 含义 |
|---|---|
Qwen/ |
厂商前缀,表示阿里云通义千问团队 |
Qwen2.5 |
系列名 + 主版本号,第二代半的通义千问 |
7B |
参数量约 70 亿(Billion) |
Instruct |
能力后缀,表示经过指令微调,适合对话 |
再看 nousresearch/hermes-3-llama-3.1-405b:free:
| 片段 | 含义 |
|---|---|
nousresearch/ |
发布组织 Nous Research |
hermes-3 |
基于 Hermes 系列的第三代 |
llama-3.1 |
底层基座模型是 Meta Llama 3.1 |
405b |
参数量 4050 亿 |
:free |
平台标签,表示该路由在 OpenRouter 等平台上可免费调用 |
二、参数规模:B、M 与数字的玄机
参数(Parameters)是衡量模型体量的核心指标,直接影响推理成本和性能上限。
| 写法 | 含义 | 典型场景 |
|---|---|---|
0.5B |
5 亿参数 | 端侧设备、嵌入式场景 |
7B、8B |
70–80 亿参数 | 消费级显卡可跑,性价比之选 |
14B、32B |
百亿到三百亿 | 需要中高端 GPU,性能与成本平衡 |
70B、72B |
七百多亿 | 大模型主力区间,推理成本显著上升 |
405B |
四千多亿 | 当前开源模型顶流,需要集群推理 |
注意:参数量相同不代表能力相同。架构优化、训练数据质量、后训练(Post-training)都会显著影响实际表现。
榜单中常见的参数区间:
Qwen2.5-0.5B-Instruct→ 超轻量端侧模型GLM-4-9B-0414→ 90 亿参数的 GLM 第四代DeepSeek-R1-Distill-Qwen-7B→ 70 亿参数蒸馏版nvidia/nemotron-nano-9b-v2→ NVIDIA 自研 90 亿参数小模型
三、能力后缀:Instruct、Coder、VL、Thinking 都代表什么
后缀是模型能力定向的最直接标识。
| 后缀 | 全称/含义 | 说明 |
|---|---|---|
Instruct |
Instruction Tuned | 指令微调版,最通用的对话模型 |
Chat |
Chat Tuned | 与 Instruct 类似,部分厂商混用 |
Coder |
Code Specialist | 代码专用,训练数据以代码为主 |
Math / Reasoning |
数学/推理专用 | 强化数学逻辑和链式思考能力 |
Thinking |
深度思考模式 | 类似 DeepSeek-R1 / GLM-Z1 的慢思考机制 |
VL |
Vision-Language | 视觉语言多模态,能看图说话 |
V |
Vision | 带视觉能力,如 GLM-4.1V |
Audio / TTS |
音频/语音合成 | 处理声音或生成语音 |
Distill |
Distilled | 蒸馏版,大模型知识迁移到小模型 |
Preview |
预览版 | 尚未正式发布的实验版本 |
Nano / Mini / Flash |
轻量版 | 极速、低成本,适合高并发 |
Pro / Ultra / Max |
旗舰版 | 厂商最强配置 |
榜单实例对照:
qwen3-coder→ 通义千问第三代代码专用模型GLM-4.1V-9B-Thinking→ GLM 第四代视觉版 90 亿参数,带深度思考GLM-Z1-9B-0414→ Z1 是 GLM 的推理/思考子系列openai/whisper→ OpenAI 的语音转文字专用模型
四、各大厂商的命名风格
不同组织有各自鲜明的命名传统。
4.1 OpenAI:GPT 系列与 o 系列双轨并行
| 模型 | 含义 |
|---|---|
GPT-4o |
GPT-4 Omni,原生多模态(文本/图像/音频) |
GPT-4o-mini |
GPT-4o 的轻量廉价版 |
o1 / o3 / o3-mini |
“o” 代表 Reasoning(推理),强调慢思考、高准确 |
OpenAI 的命名逐渐从“代际数字”转向“能力代号”:o 系列专门标识推理优先的模型,与 GPT 系列的通用快速定位形成互补。
4.2 Anthropic:Claude + 代际 + 品级
| 模型 | 含义 |
|---|---|
Claude 3 Opus |
第三代最高品级,Opus(巨作)= 最强 |
Claude 3.5 Sonnet |
第三代半,Sonnet(十四行诗)= 平衡 |
Claude 3.7 Sonnet |
第三代后期,能力持续迭代 |
Claude 3 Haiku |
第三代轻量,Haiku(俳句)= 极速 |
Anthropic 用文学体裁作为品级标识:Opus > Sonnet > Haiku,非常直观。
4.3 Google:Gemini + 版本 + 尺寸
| 模型 | 含义 |
|---|---|
Gemini 1.5 Pro |
第一代半,Pro 旗舰 |
Gemini 2.0 Flash |
第二代,Flash 极速版 |
Gemini 2.5 Pro |
第二代半,上下文窗口进一步扩展 |
Google 的命名最像软件版本号:<代际>.<迭代> <尺寸档位>,Pro / Flash / Nano 分别对应旗舰、极速、超轻量。
4.4 Meta:Llama + 代际
| 模型 | 含义 |
|---|---|
Llama 3.1 |
第三代第一次重大更新 |
Llama 3.2 |
第三代第二次更新,引入更多轻量版 |
Llama 3.3 |
第三代持续迭代 |
Llama 4 |
第四代(2025 年发布) |
Meta 的 Llama 是开源界的事实标准,很多第三方模型(如 Hermes、Dolphin)都基于 Llama 基座做二次训练。
4.5 DeepSeek:V 系列与 R 系列分工明确
| 模型 | 含义 |
|---|---|
DeepSeek-V3 |
V = General(通用),第三代基础模型 |
DeepSeek-R1 |
R = Reasoning(推理),专攻数学、代码、逻辑 |
DeepSeek-R1-Distill-Qwen-7B |
R1 知识蒸馏到 70 亿参数的 Qwen 架构上 |
DeepSeek 的命名极具工程思维:V 管广度,R 管深度,Distill 管落地成本。
4.6 阿里通义千问:Qwen + 版本号
| 模型 | 含义 |
|---|---|
Qwen2.5 |
第二代半基础模型 |
Qwen3 / Qwen3.5 |
第三代及迭代版 |
Qwen2.5-Coder |
代码专用 |
Qwen2.5-VL |
视觉语言多模态 |
Qwen3-8B |
第三代 80 亿参数版 |
阿里的命名非常“软件化”,版本号跳跃清晰,后缀覆盖全面。
4.7 智谱 GLM:GLM + 代际 + 子系列
| 模型 | 含义 |
|---|---|
GLM-4 |
第四代通用语言模型 |
GLM-4-9B |
90 亿参数轻量版 |
GLM-4.1V |
4.1 代视觉版 |
GLM-Z1 |
Z 系列 = 推理/思考专用,对标 DeepSeek-R1 |
智谱近年将 Z 系列独立出来,专门承载长思考、强推理能力。
4.8 其他常见厂商速查
| 厂商/组织 | 代表命名 | 说明 |
|---|---|---|
| Mistral | Mistral Large、Mixtral 8x22B |
Mixtral 是 MoE(混合专家)架构 |
| Moonshot | kimi-k2-instruct |
K2 = 第二代 Kimi |
| MiniMax | minimax-m2.5 |
M 系列文字模型 |
| NVIDIA | nemotron-nano-9b-v2 |
Nemotron 是 NVIDIA 自研系列,Nano = 轻量 |
| 腾讯 | Hunyuan |
混元大模型,命名不跟版本号 |
| 01.AI | Yi / Yi-VL |
李开复创办,Yi 系列 |
| Google 轻量 | Gemma 2 / Gemma 3 |
面向开源社区的小模型系列 |
五、进阶技巧:一眼识别模型特征
看到陌生模型名时,可以按以下顺序快速解码:
- 看斜杠前半部分 → 识别发布方(
Qwen/、deepseek-ai/、google/) - 找数字 + B → 锁定参数量级,判断硬件门槛
- 找版本号 → 识别代际新旧(3 > 2.5 > 2)
- 看后缀 → 判断能力取向(Coder、VL、Thinking、Instruct)
- 看是否含 Distill → 蒸馏版通常更快更便宜,但能力有折损
- 看是否含 MoE / Mixtral → 混合专家架构,推理时只激活部分参数
以 DeepSeek-R1-0528-Qwen3-8B 为例,这是 2025 年 5 月 28 日版本的 DeepSeek-R1 蒸馏模型,基于 Qwen3 架构、80 亿参数,主打推理能力。
六、总结
模型命名不是随意拼接,而是高度压缩的信息胶囊。掌握以下关键词,你再看任何模型榜单都能心中有数:
- 参数:
B= 十亿,越大越强的同时也越贵 - 后缀:
Instruct对话、Coder写代码、VL看图、Thinking慢思考 - 系列字母:
V通用、R推理、Z推理、o推理 - 尺寸词:
Nano/Mini/Flash= 轻量快;Pro/Ultra/Opus= 旗舰强 - 蒸馏:
Distill= 大模型缩水版,性价比之选
下次再看到榜单上的陌生名字,不妨先拆解一番,名字本身就会告诉你它适合什么场景。
原文链接: AI模型名称里的密码:如何从名字读懂模型类型与架构 ,转载请注明来源!
– EOF –