AI模型名称里的密码：如何从名字读懂模型类型与架构

20 April 2026

面对琳琅满目的模型名称，本文教你从命名规则中快速识别模型的厂商、版本、参数量、能力取向和架构特征。

概述
一、基础结构：名字里通常包含哪些信息
二、参数规模：B、M 与数字的玄机
三、能力后缀：Instruct、Coder、VL、Thinking 都代表什么
四、各大厂商的命名风格
五、进阶技巧：一眼识别模型特征
六、总结

概述

打开 Cyeam AI 免费模型榜单，满屏的模型名称常常让人眼花缭乱：Qwen/Qwen3-8B、DeepSeek-R1-Distill-Qwen-7B、nousresearch/hermes-3-llama-3.1-405b:free……这些看似随机的字符串，其实是一套高度结构化的命名体系。只要掌握规则，你就能从名字里读出模型的厂商归属、世代版本、参数规模、能力取向，甚至是底层架构。

本文以榜单中常见的模型为例，系统拆解 AI 模型的命名密码。

一、基础结构：名字里通常包含哪些信息

绝大多数模型名可以拆解为以下几个部分：

[厂商/组织] / [系列名] - [版本/代际] - [参数规模] - [能力后缀]

以 Qwen/Qwen2.5-7B-Instruct 为例：

片段	含义
`Qwen/`	厂商前缀，表示阿里云通义千问团队
`Qwen2.5`	系列名 + 主版本号，第二代半的通义千问
`7B`	参数量约 70 亿（Billion）
`Instruct`	能力后缀，表示经过指令微调，适合对话

再看 nousresearch/hermes-3-llama-3.1-405b:free：

片段	含义
`nousresearch/`	发布组织 Nous Research
`hermes-3`	基于 Hermes 系列的第三代
`llama-3.1`	底层基座模型是 Meta Llama 3.1
`405b`	参数量 4050 亿
`:free`	平台标签，表示该路由在 OpenRouter 等平台上可免费调用

二、参数规模：B、M 与数字的玄机

参数（Parameters）是衡量模型体量的核心指标，直接影响推理成本和性能上限。

写法	含义	典型场景
`0.5B`	5 亿参数	端侧设备、嵌入式场景
`7B`、`8B`	70–80 亿参数	消费级显卡可跑，性价比之选
`14B`、`32B`	百亿到三百亿	需要中高端 GPU，性能与成本平衡
`70B`、`72B`	七百多亿	大模型主力区间，推理成本显著上升
`405B`	四千多亿	当前开源模型顶流，需要集群推理

注意：参数量相同不代表能力相同。架构优化、训练数据质量、后训练（Post-training）都会显著影响实际表现。

榜单中常见的参数区间：

Qwen2.5-0.5B-Instruct → 超轻量端侧模型
GLM-4-9B-0414 → 90 亿参数的 GLM 第四代
DeepSeek-R1-Distill-Qwen-7B → 70 亿参数蒸馏版
nvidia/nemotron-nano-9b-v2 → NVIDIA 自研 90 亿参数小模型

三、能力后缀：Instruct、Coder、VL、Thinking 都代表什么

后缀是模型能力定向的最直接标识。

后缀	全称/含义	说明
`Instruct`	Instruction Tuned	指令微调版，最通用的对话模型
`Chat`	Chat Tuned	与 Instruct 类似，部分厂商混用
`Coder`	Code Specialist	代码专用，训练数据以代码为主
`Math` / `Reasoning`	数学/推理专用	强化数学逻辑和链式思考能力
`Thinking`	深度思考模式	类似 DeepSeek-R1 / GLM-Z1 的慢思考机制
`VL`	Vision-Language	视觉语言多模态，能看图说话
`V`	Vision	带视觉能力，如 `GLM-4.1V`
`Audio` / `TTS`	音频/语音合成	处理声音或生成语音
`Distill`	Distilled	蒸馏版，大模型知识迁移到小模型
`Preview`	预览版	尚未正式发布的实验版本
`Nano` / `Mini` / `Flash`	轻量版	极速、低成本，适合高并发
`Pro` / `Ultra` / `Max`	旗舰版	厂商最强配置

榜单实例对照：

qwen3-coder → 通义千问第三代代码专用模型
GLM-4.1V-9B-Thinking → GLM 第四代视觉版 90 亿参数，带深度思考
GLM-Z1-9B-0414 → Z1 是 GLM 的推理/思考子系列
openai/whisper → OpenAI 的语音转文字专用模型

四、各大厂商的命名风格

不同组织有各自鲜明的命名传统。

4.1 OpenAI：GPT 系列与 o 系列双轨并行

模型	含义
`GPT-4o`	GPT-4 Omni，原生多模态（文本/图像/音频）
`GPT-4o-mini`	GPT-4o 的轻量廉价版
`o1` / `o3` / `o3-mini`	“o” 代表 Reasoning（推理），强调慢思考、高准确

OpenAI 的命名逐渐从“代际数字”转向“能力代号”：o 系列专门标识推理优先的模型，与 GPT 系列的通用快速定位形成互补。

4.2 Anthropic：Claude + 代际 + 品级

模型	含义
`Claude 3 Opus`	第三代最高品级，Opus（巨作）= 最强
`Claude 3.5 Sonnet`	第三代半，Sonnet（十四行诗）= 平衡
`Claude 3.7 Sonnet`	第三代后期，能力持续迭代
`Claude 3 Haiku`	第三代轻量，Haiku（俳句）= 极速

Anthropic 用文学体裁作为品级标识：Opus > Sonnet > Haiku，非常直观。

4.3 Google：Gemini + 版本 + 尺寸

模型	含义
`Gemini 1.5 Pro`	第一代半，Pro 旗舰
`Gemini 2.0 Flash`	第二代，Flash 极速版
`Gemini 2.5 Pro`	第二代半，上下文窗口进一步扩展

Google 的命名最像软件版本号：<代际>.<迭代> <尺寸档位>，Pro / Flash / Nano 分别对应旗舰、极速、超轻量。

4.4 Meta：Llama + 代际

模型	含义
`Llama 3.1`	第三代第一次重大更新
`Llama 3.2`	第三代第二次更新，引入更多轻量版
`Llama 3.3`	第三代持续迭代
`Llama 4`	第四代（2025 年发布）

Meta 的 Llama 是开源界的事实标准，很多第三方模型（如 Hermes、Dolphin）都基于 Llama 基座做二次训练。

4.5 DeepSeek：V 系列与 R 系列分工明确

模型	含义
`DeepSeek-V3`	V = General（通用），第三代基础模型
`DeepSeek-R1`	R = Reasoning（推理），专攻数学、代码、逻辑
`DeepSeek-R1-Distill-Qwen-7B`	R1 知识蒸馏到 70 亿参数的 Qwen 架构上

DeepSeek 的命名极具工程思维：V 管广度，R 管深度，Distill 管落地成本。

4.6 阿里通义千问：Qwen + 版本号

模型	含义
`Qwen2.5`	第二代半基础模型
`Qwen3` / `Qwen3.5`	第三代及迭代版
`Qwen2.5-Coder`	代码专用
`Qwen2.5-VL`	视觉语言多模态
`Qwen3-8B`	第三代 80 亿参数版

阿里的命名非常“软件化”，版本号跳跃清晰，后缀覆盖全面。

4.7 智谱 GLM：GLM + 代际 + 子系列

模型	含义
`GLM-4`	第四代通用语言模型
`GLM-4-9B`	90 亿参数轻量版
`GLM-4.1V`	4.1 代视觉版
`GLM-Z1`	Z 系列 = 推理/思考专用，对标 DeepSeek-R1

智谱近年将 Z 系列独立出来，专门承载长思考、强推理能力。

4.8 其他常见厂商速查

厂商/组织	代表命名	说明
Mistral	`Mistral Large`、`Mixtral 8x22B`	Mixtral 是 MoE（混合专家）架构
Moonshot	`kimi-k2-instruct`	K2 = 第二代 Kimi
MiniMax	`minimax-m2.5`	M 系列文字模型
NVIDIA	`nemotron-nano-9b-v2`	Nemotron 是 NVIDIA 自研系列，Nano = 轻量
腾讯	`Hunyuan`	混元大模型，命名不跟版本号
01.AI	`Yi` / `Yi-VL`	李开复创办，Yi 系列
Google 轻量	`Gemma 2` / `Gemma 3`	面向开源社区的小模型系列

五、进阶技巧：一眼识别模型特征

看到陌生模型名时，可以按以下顺序快速解码：

看斜杠前半部分 → 识别发布方（Qwen/、deepseek-ai/、google/）
找数字 + B → 锁定参数量级，判断硬件门槛
找版本号 → 识别代际新旧（3 > 2.5 > 2）
看后缀 → 判断能力取向（Coder、VL、Thinking、Instruct）
看是否含 Distill → 蒸馏版通常更快更便宜，但能力有折损
看是否含 MoE / Mixtral → 混合专家架构，推理时只激活部分参数

以 DeepSeek-R1-0528-Qwen3-8B 为例，这是 2025 年 5 月 28 日版本的 DeepSeek-R1 蒸馏模型，基于 Qwen3 架构、80 亿参数，主打推理能力。

六、总结

模型命名不是随意拼接，而是高度压缩的信息胶囊。掌握以下关键词，你再看任何模型榜单都能心中有数：

参数：B = 十亿，越大越强的同时也越贵
后缀：Instruct 对话、Coder 写代码、VL 看图、Thinking 慢思考
系列字母：V 通用、R 推理、Z 推理、o 推理
尺寸词：Nano / Mini / Flash = 轻量快；Pro / Ultra / Opus = 旗舰强
蒸馏：Distill = 大模型缩水版，性价比之选

下次再看到榜单上的陌生名字，不妨先拆解一番，名字本身就会告诉你它适合什么场景。

原文链接： AI模型名称里的密码：如何从名字读懂模型类型与架构，转载请注明来源！

– EOF –

AI 27