ZYX HOME

❯

❯

方法论_框架

❯

用户行为洞察方法论

❯

聚类分析

May 21, 20255 min read

聚类分析

聚类分析是一种无监督机器学习方法，通过识别数据点之间的相似性，将用户自动划分为多个相似特征的群体，从而发现用户的自然分组。

常用聚类算法

KMeans聚类

原理：将数据分为K个簇，使每个样本到其所属簇中心的距离平方和最小
优点：简单高效，易于实现和理解
缺点：需要预先指定簇数K，对异常值敏感，只适合发现球形簇
应用：基于用户活跃度、消费额等连续特征的分群

DBSCAN聚类

原理：基于密度的聚类，将密度相连的点归为一类
优点：不需要预先指定簇数，可以发现任意形状的簇，对异常值不敏感
缺点：对参数敏感，计算复杂度高
应用：识别孤立用户群体，发现异常用户

层次聚类

原理：通过合并或分裂构建聚类的层次结构
优点：不需要预先指定簇数，可生成树状图直观展示聚类结果
缺点：计算复杂度高，不适合大规模数据集
应用：构建用户分层体系，发现群体间的层次关系

GMM (高斯混合模型)

原理：假设数据由多个高斯分布混合生成，学习各分布的参数
优点：提供软聚类结果，可表示群体归属的概率
缺点：计算复杂，对初始值敏感
应用：识别用户的多重属性和模糊群体归属

聚类分析流程

特征选择：选择反映用户特性的关键特征
- 活跃特征：访问频次、使用时长等
- 消费特征：消费金额、购买频次等
- 内容特征：内容浏览/消费偏好
- 功能特征：功能使用偏好和频率
数据预处理
- 缺失值处理：填充或删除
- 异常值处理：修正或剔除
- 特征标准化：标准化或归一化
- 降维：PCA、t-SNE等降维技术
确定算法参数
- 簇数选择：肘部法则、轮廓系数等
- 距离度量：欧氏距离、余弦距离等
- 其他参数：如DBSCAN的eps和minPts
执行聚类
- 应用选定的算法进行聚类
- 评估聚类质量
结果解读
- 分析各簇的特征分布
- 为各簇命名并描述其特点
- 可视化聚类结果

聚类结果评估

内部评估：轮廓系数、Davies-Bouldin指数、Calinski-Harabasz指数
外部评估：与业务目标相关的指标，如各簇的转化率、留存率差异
可解释性评估：簇的业务意义和可解释性

应用案例

价值分层：基于消费行为聚类，形成高价值/中价值/低价值用户群
行为分群：基于产品使用行为，识别不同使用模式的用户群体
兴趣分群：基于内容消费行为，发现不同兴趣偏好的用户群体

与其他方法的关联

聚类分析是用户聚类与画像的核心技术，可以：

为用户价值分层提供数据驱动的分层依据
与行为路径分析结合，分析不同群体的典型路径
支持画像标签生成，为用户自动生成群体标签

Graph View

聚类分析
常用聚类算法
KMeans聚类
DBSCAN聚类
层次聚类
GMM (高斯混合模型)
聚类分析流程
聚类结果评估
应用案例
与其他方法的关联

Backlinks

聚类
用户聚类与画像
用户行为洞察-延伸方向
用户行为洞察-适用场景
用户行为洞察-项目案例
用户行为洞察方法论
画像标签生成

Created with Quartz v4.5.0 © 2025

GitHub
Discord Community