大模型选型需先明确任务类型、部署需求与RAG适配性;Llama3、Qwen2等在中文支持、许可证、硬件适配上差异显著;本地部署推荐vLLM/TGI,微调强调工程化流水线,RAG需闭环归因分析。

大模型基础认知与选型逻辑
理解大模型不是从代码开始,而是从它的能力边界和适用场景入手。Llama、Qwen、Phi、Gemma 等开源模型在参数量、推理速度、中文支持、许可证限制(如 Llama 3 的商用条款)、硬件适配性(是否支持 Apple Silicon 或低显存 GPU)上差异显著。选型时优先明确任务类型:是需要强推理的长文本生成,还是轻量级指令微调?是否需私有部署?是否要对接 RAG 流程?比如做企业内部知识问答,Qwen2-7B-Instruct 在中文准确率和上下文长度(128K)上比 Llama3-8B 更易落地;若仅需边缘端关键词提取,Phi-3-mini(3.8B)+ ONNX Runtime 就够用。
本地化部署与推理优化实战
部署不是“跑通就行”,关键在可控、可测、可维护。用 Ollama 快速验证可以,但生产环境建议用 vLLM 或 Text Generation Inference(TGI)。vLLM 支持 PagedAttention,显存利用率提升 2–3 倍,适合高并发 API 场景;TGI 内置健康检查、批量请求合并和 Prometheus 指标暴露,更适合 Kubernetes 编排。常见卡点包括:量化后精度下降(推荐 AWQ > GPTQ > bitsandbytes)、CUDA 版本与 FlashAttention 兼容性、tokenizer 对特殊符号(如 XML 标签、JSON 键名)的截断处理。建议始终用真实业务 query 构建 mini benchmark,对比首 token 延迟、吞吐量、OOM 概率三项指标。
工程化微调:从 LoRA 到可复现流水线
微调不是调几个 epoch 就完事。真正工程化的要点在于:数据清洗标准化(去重、格式对齐、指令模板注入)、训练配置版本化(用 YAML 管理 learning_rate、lora_rank、max_seq_len)、梯度检查点 + FSDP 分布式策略适配多卡。LoRA 是起点,但必须配合 adapter merging(训练后合并权重)或 prefix-tuning 动态加载,才能支撑 A/B 测试多个微调版本。工具链推荐 Hugging Face Transformers + Unsloth(加速 LoRA 训练)+ DVC(数据/模型版本追踪)+ MLflow(记录超参与指标)。一个典型流程:原始业务对话 → 清洗为 sharegpt 格式 → 加入 system prompt 模板 → 使用 QLoRA 在 2×A10 24G 上训 3 小时 → 保存 adapter → 推理时动态注入 → 自动回归测试准确率波动 ≤ 1.5%。
RAG 系统构建与效果归因分析
RAG 不是“向量库 + LLM”拼凑,而是一个闭环反馈系统。核心模块包括:chunk 策略(语义分块优于固定长度)、embedding 模型选型(BGE-M3 支持多语言+混合检索,优于 text2vec)、重排序(Rerank 模型如 bge-reranker-v2-m3 显著提升 top-3 相关性)、prompt 工程(明确指令“仅基于以下内容回答,不可编造”并约束输出格式)。效果差往往源于归因缺失:用 LLM-as-a-judge 自动生成评分(如相关性 1–5 分),再按 chunk 来源、query 类型、embedding 距离分布做交叉分析。发现 70% 的 bad case 来自 PDF 表格 OCR 错误,就该前置加入表格结构识别模块,而非盲目换大模型。
立即学习“Python免费学习笔记(深入)”;
不复杂但容易忽略:所有环节都要带日志、可回溯、有 baseline。模型上线前,至少跑一次 cold-start 压测和持续 24 小时的稳定性观测。










