Uplift评估指标的推荐顺序

1. Decile 单调性验证
2. Qini 曲线可视化
3. AUUC 面积量化


🔢 一、Decile Analysis:“分段看效果”

🎯 目的:

看模型预测的 uplift 分数是否 分得清楚好人和坏人(即排序是否靠谱)

🧠 做法:

  1. 将所有用户按照模型输出的 uplift 分数从高到低排序
  2. 分成 10 份(decile),每一份称为 D1, D2, …, D10
  3. 每一组中,分别计算:
    • Treatment 组的转化率
    • Control 组的转化率
    • 两者相减(就是 uplift)

✅ 理想结果:

DecileTreatment CVRControl CVRUplift
D130%10%+20%
D225%10%+15%
D105%5%≈ 0 or negative ❌

Uplift 趋势应该 单调下降,高分段 uplift 高,低分段接近 0。


📈 二、Qini Curve:“可视化排序效果”

🎯 目的:

更直观地看:模型预测得越高的用户,是否真的 uplift 越大

🧠 做法:

  1. 按模型预测 uplift 分数降序排序
  2. 累积选择 Top X% 的人(如 top 10%, 20%, …, 100%)
  3. 每个阶段计算累积 uplift:
  4. 绘制:
    • 横轴:人群比例(0~1)
    • 纵轴:累积 uplift
    • 比较曲线 vs baseline(随机投放)

✅ 理想结果:

  • 模型曲线远高于 baseline(表示优先选中最有 uplift 的人)
  • 曲线越陡,表示排序越精准

📐 三、AUUC(Area Under the Uplift Curve):“排序好坏的一行数”

🎯 目的:

用一个数值来衡量模型整体排序效果

🧠 做法:

  • 计算 Qini 曲线下面积

✅ 理想结果:

  • AUUC 越大越好
  • 可直接用来比较不同模型效果

✅ 三者之间关系总结:

指标类型用来判断什么优点缺点
Decile 分析表格模型排序是否单调、分段效果可解释性强、直观仅粗略分段
Qini 曲线图形整体 uplift 排序是否可靠可视化清晰、趋势判断好无法直接比较模型
AUUC数值排序“总体效果”模型之间可定量比较不可解释为什么好

✅ 实战建议:

阶段指标判断标准
模型开发后初步筛选Decile 分析是否单调下降,前几组 uplift 明显高
多个模型比较AUUC哪个面积大
模型上线/业务解释Qini 曲线 + Decile能否解释效果&策略