本文档系统性梳理大语言模型(LLM)微调的核心原理、主流方法与实践策略,为技术团队构建定制化智能系统提供方法指导和技术导航。


微调概述

什么是微调?

微调(Fine-tuning)是在预训练模型基础上,使用特定任务数据继续训练的迁移学习方法,通过少量数据实现针对性优化。

为什么需要微调?

  • 通用模型知识面广但不够准确(如无法准确回答公司政策)
  • 提示工程无法满足深度定制需求(如特定领域术语)
  • 某些任务需引导模型行为(如限制回答风格、安全策略)

技术分类体系

适用场景判断

详细分析请参考:微调适用场景分析

按参数更新方式

按训练目标

主流PEFT技术对比

方法参数量显存需求适用场景
LoRA微调0.1%-1%通用微调首选
QLoRA微调0.1%-1%极低消费级GPU
Adapter微调0.5%-2%中等多任务部署
Prefix Tuning0.01%-0.1%最低轻量级任务

核心技术方法

参数高效微调

强化学习优化

  • DPO微调 - 直接偏好优化,简化RLHF流程
  • RLHF微调 - 三阶段训练,最佳人类对齐

任务导向应用

按任务类型

实施流程


方法选择指南

快速决策表

场景推荐方法理由
快速实验QLoRA微调显存友好,上手快
生产部署LoRA微调成熟稳定,性能好
多任务系统Adapter微调模块化管理
偏好优化DPO微调简单有效
高质量对话RLHF微调最佳对齐效果

详细选择策略:微调策略选择指南


相关技术对比

微调 vs 其他方法


📚 参考资源

核心论文

实用工具