大语言模型选型指南：从架构到场景的全方位对比分析

04 April 2026

全面梳理大语言模型从2017年Transformer诞生至今的发展历程，深入解析模型体量、架构设计、上下文窗口等核心指标。文章系统对比Transformer、Mamba、MoE等主流架构特性，详解个人部署、日常对话、超长文档处理、代码开发等8大应用场景的选型策略，并提供详细的避坑指南，帮助开发者根据实际需求选择最适合的LLM模型。

发展史
模型指标
模型选择参考

发展史

史前时代（2017年前）：基于规则和统计的小模型，只能完成简单任务，长文本处理能力弱。
奠基时代（2017-2019）：Transformer架构诞生，自注意力机制实现并行训练，GPT和BERT开启预训练+微调范式。
爆发时代（2020-2022）：GPT-3证明规模即能力，ChatGPT通过RLHF技术实现对话能力，LLM进入大众视野。
多模态与智能体时代（2023至今）：GPT-4实现图文多模态，开源模型百花齐放，RAG、Agent等技术推动应用落地。

模型指标

Attribute	Nemotron Nano 12B 2 VL (free)	说明
Author	nvidia
Model Size / Parameters	7B	模型体量 / 参数量。
Context Length	128K	上下文越大，长文本 / 长对话 / 复杂任务理解能力越强
Hallucination		幻觉率
Architecture	hybrid Transformer-Mamba architecture	大模型架构
Reasoning	Yes	推理能力
Latency (p50)	2.09s	延迟越低，响应越快
Throughput (p50)	40.0 tok/s	吞吐量越高，生成速度越快
Input Pricing	$0 / M tokens
Output Pricing	$0 / M tokens
Input Modalities	image, text, video	输入模态，此处均为多模态
Output Modalities	text	输出模态
Quantization	unknown	量化精度
Stream cancellation	Yes	流式取消
Supports Tools	Yes	工具调用
No Prompt Training	No	无提示词训练
Caching	No	缓存

模型体量 Parameters

它决定了模型的知识存储容量、复杂推理能力、泛化能力的理论上限。
但「上限高」≠「实际表现好」，就像一个天赋高的学生，不努力（训练差）也考不过努力的普通学生

架构 Architecture

普通大模型（Dense）：一个超级大脑。
专家模型（MoE）：一群分工明确的小专家（但对外表现为一个整体）。

英文术语	中文	简单直白解释	优点	缺点	典型模型
Transformer	标准 Transformer 架构	目前主流大模型通用架构，靠注意力机制理解上下文	逻辑强、推理稳、对话自然	越长文本越慢、算力开销大	Llama、Qwen、GPT 系列
Mamba (SSM)	状态空间模型	新一代架构，靠 “状态传递” 处理长文本	极快、超长上下文稳定、显存友好	逻辑 / 数学略弱于 Transformer	Mamba 系列、Jamba
Hybrid Transformer-Mamba	混合 Transformer+Mamba	一部分层用 Transformer，一部分用 Mamba	兼顾推理能力 + 长文本速度	结构复杂、训练难度高	Nemotron Nano、一些新 VL 模型
Dense	稠密模型	每次生成都会激活全部参数	输出稳定、质量均匀、不忽强忽弱	更吃显存、速度一般	大部分 7B/13B/12B 模型
MoE (Mixture of Experts)	混合专家模型	只激活部分参数做推理	速度快、可做大参数量模型	可能不稳定、质量波动	Gemma 4、Qwen MoE、Mixtral
Base Model	基座模型	只预训练过，不会对话	泛化强、适合二次训练	不能直接聊天	原始 Llama、原始 Qwen
Chat / Instruct Tuned	对话 / 指令微调	专门优化过，会听话、会聊天	好用、对齐人类意图	能力受微调数据限制	几乎所有 API 模型

Embedding 模型

LLM：负责说话、思考、回答
Embedding：负责把内容变成可计算的数字，方便查找和匹配

维度区间	典型代表模型	核心适用场景
128-384 维	bge-small、m3e-small、text-embedding-3-small	轻量场景、移动端部署、海量短文本（评论 / 标题）、对延迟要求极高、成本敏感的业务
512-1024 维	bge-base、m3e-base、通用多模态 embedding	通用 RAG 场景、企业知识库、文档问答、百万级数据量，平衡精度与性能的首选区间
1024-3072 维	bge-large、text-embedding-3-large、gte-large	专业领域（法律 / 医疗 / 科研）、复杂长文本、千万级大规模数据、对召回精度有极高要求的场景
3072 维以上	仅特定科研 / 多模态细分场景	通用 RAG 几乎不推荐使用，仅极端细分的高精度语义匹配场景有极少量应用

蒸馏&RAG

知识蒸馏（Knowledge Distillation, KD）
- 本质是模型压缩与知识内迁技术，核心是将参数量大、性能强的「教师模型」的知识、推理逻辑与输出分布，通过特定训练机制迁移到轻量的「学生模型」的参数中，把知识固化到模型内部，最终在牺牲少量性能的前提下，实现模型轻量化、推理降本增效。
- 蒸馏后的小模型，推理速度快、成本低，但能力有天花板：它的能力上限无法超过教师模型，甚至会有 10%-15% 的性能损失，尤其在复杂推理、长文本生成等任务上，和大模型的差距会更明显。但优势是推理延迟极低，无需依赖复杂的外部组件，甚至可以离线运行。
检索增强生成（Retrieval-Augmented Generation, RAG）
- 本质是外部知识实时增强技术，核心是不修改模型本身的参数，在生成回答前，先基于用户查询从外部知识库（向量数据库、文档库等）召回相关信息，再将检索结果作为上下文注入 Prompt，让模型基于最新、最精准的外部知识完成生成，核心解决大模型知识过时、生成幻觉、专业知识不足的痛点。
- RAG 增强后的模型，能力边界可无限拓展，但推理开销更高：它可以通过对接不同的知识库，无限拓展知识覆盖范围，同时不损失模型本身的推理、生成能力，甚至能通过多源信息整合完成更复杂的专业任务。但缺点是每次推理都要执行检索步骤，会增加响应延迟，且长上下文输入会提升推理成本。

模型选择参考

场景名称	核心优先级	架构选型推荐	上下文窗口	模型体量（参数量）	推理能力要求	模态要求	避坑指南
个人本地部署 / 边缘设备运行	体量 > 架构 > 上下文	优先Dense 稠密模型，可选混合 Transformer-Mamba，量化友好的纯 Transformer	32K 以内（满足日常需求即可）	1B-7B，最高不超过 14B	基础 - 中等	纯文本为主，无需多模态	不要盲目选 20B + 大模型，消费级显卡带不动，体验极差；优先选支持 int4/int8 量化的模型
日常通用对话 / 轻量问答	体验 > 成本 > 体量	纯 Transformer、混合架构均可，Dense/MoE 无强制要求	8K-32K	3B-14B	中等	纯文本即可	不要为了日常对话选 70B + 超大模型，纯纯性能浪费，延迟高还贵
超长文档处理 / 长对话 / RAG 检索	上下文窗口 > 架构 > 体量	优先混合 Transformer-Mamba，次选优化过长文本的纯 Transformer，Dense/MoE 均可	最低 128K，优先 256K+，极致场景选 1M+	7B-32B（平衡成本与能力）	中等 - 强	纯文本为主，多模态文档可选图文模态	不要选 32K 以下短上下文模型，长文档会断章取义；纯 Mamba 模型长文本虽快，但会丢失关键逻辑
代码开发 / 工程化任务	推理能力 > 架构 > 工具调用	优先纯 Transformer Dense 稠密模型，代码专项优化的架构	32K-128K（长代码文件需要）	13B-34B，极致场景选 70B+	强 - 顶级	纯文本为主，可选支持截图读图的多模态	不要选纯 Mamba 小模型，代码逻辑、debug 能力远弱于 Transformer 架构；必须验证工具调用（Git、API、终端）兼容性
多模态图文 / 视频理解	模态能力 > 上下文 > 架构	优先混合 Transformer-Mamba 多模态架构，次选带视觉编码器的纯 Transformer	64K-128K（长视频 / 多图需要）	7B-14B，专业场景选 34B+	中等 - 强	必须支持图文 + 视频，优先原生多模态	不要选文本模型后加视觉插件的 “伪多模态”，读图精度差、幻觉率极高
复杂推理 / 科研 / 数学逻辑任务	推理能力 > 架构 > 体量	优先纯 Transformer Dense 稠密模型，推理专项优化的架构	32K-128K（复杂逻辑需要长上下文推导）	34B-70B+，同架构下越大越好	顶级	纯文本即可	不要选纯 Mamba、MoE 小模型，逻辑严谨性、数学推导能力远弱于大参数量 Dense Transformer 模型
垂直领域专用任务（翻译 / 医疗 / 法律）	垂直能力 > 架构 > 体量	优先垂直场景专项微调的 Dense 模型，通用架构为辅	32K-128K（匹配垂直文档长度）	7B-14B，专业场景选 34B+	中等 - 强（匹配垂直领域逻辑）	按需选择	不要用通用大模型硬做垂直场景，专业度、准确率远低于专项微调模型，幻觉率极高
免费测试 / 个人原型开发	成本 > 可用性 > 能力	无强制要求，优先官方免费开放的成熟架构	越高越好	无强制要求	中等 - 强	按需选择	不要选免费但有严格调用限额、限速的模型，影响原型开发效率；优先验证免费版是否阉割核心能力

原文链接：大语言模型选型指南：从架构到场景的全方位对比分析，转载请注明来源！

– EOF –

AI 32

AI 36
LLM 8