🎯 核心价值

强化学习微调(RL Fine-tuning)是一类基于人类反馈和偏好学习的高级微调技术,旨在使大语言模型(LLM)的输出更符合人类的期望、价值观和特定指令风格。这类方法超越了传统的监督微调SFT,通过学习隐式的偏好信号,实现更深层次的模型对齐。

💡 主要方法与选择

方法核心思想适用场景复杂度主要优势
监督微调SFT学习显式输入输出基础指令跟随、知识注入简单直接
DPO微调直接优化偏好对需要人类偏好对比数据无需奖励模型、训练稳定
RLHF微调模仿人类反馈循环(包含PPO微调追求高质量、复杂对齐效果最佳、最接近人类

🚀 方法选择导航

  1. 基础能力构建
    • 目标:让模型掌握基本指令跟随和知识。
    • 推荐:从监督微调SFT开始。
  2. 简单偏好对齐
    • 目标:模型输出符合已标注的优劣偏好。
    • 资源:有”chosen/rejected”形式的偏好数据集。
    • 推荐DPO微调,流程简单,效果良好。
  3. 复杂与高质量对齐
    • 目标:模型输出在多个维度(如有用性、无害性、真实性)上与人类期望高度一致。
    • 资源:需要构建奖励模型,并进行多阶段训练。
    • 推荐RLHF微调,通常使用PPO微调作为核心优化算法。