大模型微调方法论（LLM Fine-tuning Playbook）

本指南旨在系统性梳理大语言模型（LLM）微调的核心原理、主流方法、任务落地实践与调优策略，覆盖从方法选择、流程设计到推理部署的全链条内容，适合技术团队在构建定制化智能问答、分类、对话系统时参考使用。

1. 微调的本质与适用场景

什么是微调？

微调（Fine-tuning）指在预训练模型基础上，使用较小规模的特定任务数据继续训练，从而适配特定应用场景或指令风格。

为什么需要微调？

通用模型知识面广但不够准确（如无法准确回答公司政策）
提示工程无法满足深度定制需求（如特定领域术语）
某些任务需引导模型行为（如限制回答风格、安全策略）

微调适用任务

结构化分类/回归任务（意图识别、评分预测）
非结构化生成任务（问答、摘要、对话）
多任务/多模态任务（问答+分类、图文联合）

微调不适合的任务

实时信息更新（更适合检索增强 RAG）
广泛开放知识领域（大模型本身知识足够）

2. 微调技术分类总览

参数更新方式：

全参数微调 Full fine-tuning
参数高效微调 PEFT（LoRA / QLoRA / Adapter / Prefix）训练目标方式：
监督微调（SFT）
强化学习偏好优化（DPO, PPO）
RLHF（三阶段：SFT → Reward → PPO）

PEFT（Parameter-Efficient Fine-Tuning）介绍

方法	核心思想	优点	缺点
LoRA	低秩矩阵插入替代全参更新	显存占用低、支持 merge	适配器合并需额外管理
QLoRA	基于 4-bit 量化的 LoRA	适合消费级 GPU	精度略有下降
Prefix Tuning	在输入前引入可学习向量	训练参数最少	长文本场景不稳
Adapter	插入独立微网络模块	跨任务迁移强	推理速度略慢

3. 主流微调方法详解

全参数微调

方法：对模型全部参数进行再训练
优点：适应性强，效果最佳
缺点：需显存大（A100/V100），训练耗时长，部署麻烦

LoRA

方法：插入低秩矩阵以替代原始权重矩阵的更新
实用工具：peft, transformers
适合：指令微调、分类任务、小规模训练

QLoRA

方法：在 4-bit 量化模型基础上使用 LoRA，显著压缩显存
推荐框架：unsloth, auto-gptq, bitsandbytes

SFT / DPO / RLHF

方法	场景	数据需求	特点
SFT	指令微调、问答	少量标注数据	基础任务适配
DPO	偏好学习、对比优化	带有“优/劣对”的对话数据	无需 Reward 模型
RLHF	高质量人机交互	3阶段（SFT→RM→PPO）	工程复杂度高

4. 任务类型与实战案例

4.1 生成式任务（问答/对话）

模型：Causal LM（如 LLaMA, ChatGLM）
输入格式：Prompt + Response
损失函数：交叉熵（Cross Entropy）
示例：保险问答 → “问：… 答：…” 预测后续 token

4.2 多标签分类任务（意图识别）

模型：分类 head + 交叉熵
数据格式：{"text": ..., "label": ...}
输出：logits + softmax + argmax

4.4 多任务联合训练

输出层多头（multi-head）结构
每个任务独立 loss，进行加权合并
示例：同时完成摘要生成 + 情感分类

4.5 多模态训练

图文输入（Qwen-VL, MiniGPT）
图片编码器 + 文本生成模块组合训练

5. 微调流程与调参技巧

5.1 数据准备

格式统一（JSONL / Prompt Template）
保证指令风格清晰，少噪声
可通过 GPT 生成少量高质量样本做冷启动

5.2 Prompt 工程

明确指令 + 输出类型（如：“请使用三句话总结…”）
加入元提示（Meta Prompt）引导风格
举例法 Few-shot Prompt 提升泛化能力

5.3 模型参数调整

target_modules 设置：q_proj, v_proj, k_proj, o_proj 等
lora_alpha 与 r 值设置影响更新程度
dropout 增强稳定性

5.4 模型偏好调优

DPO：训练更偏好你标注的“好”回答
PPO：通过 Reward 模型反向引导策略生成

6. 推理策略与部署优化

6.1 多标签推理策略

sigmoid 输出 → 阈值设定 → 多意图输出
支持 Top-K 组合 + 概率排序

6.2 推理效率提升

合并 LoRA（merge_and_unload）提升推理速度
INT4 量化部署（bitsandbytes）节省显存
多 adapter 热插拔机制：适配多任务部署

7. 微调策略选择建议

场景	推荐方法	特点
快速实验、少样本分类	QLoRA + PEFT	显存友好，训练快
指令对话 + 情感调优	SFT + DPO	输出可控、用户偏好明显
多任务 + 多模型共存	多 adapter + prompt routing	灵活部署、解耦
语音/图文等多模态	LoRA + 多模态基础模型	通用扩展能力强

8. 附录与参考

常用格式样例

{"text": "用户提问内容", "label": 1}
{"prompt": "问题：...", "response": "答案：..."}

📚 参考资料：

Huggingface PEFT 文档：https://huggingface.co/docs/peft/index

Unsloth 项目：https://github.com/unslothai/unsloth

LoRA 原论文：https://arxiv.org/abs/2106.09685

DPO 方法介绍：https://arxiv.org/abs/2305.18290

ZYX HOME

Explorer

_大模型微调方法论

大模型微调方法论（LLM Fine-tuning Playbook）

1. 微调的本质与适用场景

什么是微调？

为什么需要微调？

微调适用任务

微调不适合的任务

2. 微调技术分类总览

PEFT（Parameter-Efficient Fine-Tuning）介绍

3. 主流微调方法详解

全参数微调

LoRA

QLoRA

SFT / DPO / RLHF

4. 任务类型与实战案例

4.1 生成式任务（问答/对话）

4.2 多标签分类任务（意图识别）

4.4 多任务联合训练

4.5 多模态训练

5. 微调流程与调参技巧

5.1 数据准备

5.2 Prompt 工程

5.3 模型参数调整

5.4 模型偏好调优

6. 推理策略与部署优化

6.1 多标签推理策略

6.2 推理效率提升

7. 微调策略选择建议

8. 附录与参考

常用格式样例

📚 参考资料：

Graph View

Table of Contents