用户诉求聚类

基于 BERT embedding + 聚类自研用户诉求自动分类系统，实现高效归类与新问题发现，准确率提升 30%+，构建半监督反馈闭环，显著降低人工负担并支持模型持续演化。

graph TD
    A[每日用户文字诉求（几十万条）] --> B[文本清洗 & 预处理]
    B --> C[BERT 编码为语义向量]
    C --> D[无监督聚类（KMeans / DBSCAN）]
    D --> E[聚类结果输出]
    E --> F[Top-N关键词 + 示例句子生成标签]
    E --> G[发现新类型诉求]
    F --> H[人工审核可选介入，持续优化聚类质量]

类似方法常应用在用户聚类与画像

项目介绍

🔥 项目背景

支付宝某应用每日接收到几十万条用户文字诉求反馈，内容高度非结构化、词汇表达多样，传统做法依赖大量正则规则进行分类整理。然而：

准确率低：表达差异大，规则难以覆盖所有变种；
维护困难：规则数量庞大，需频繁人工更新；
难以发现新问题：只能识别已知问题，对新兴诉求无能为力。

🚀 解决方案

为应对大规模非结构化文本诉求，本项目引入BERT Embedding + 聚类分析的智能处理方案。

✅ 技术流程概述：

语义向量化（Embedding）：
- 使用预训练的 BERT 模型（或轻量版本如 MiniLM）对用户诉求进行语义编码；
- 每条反馈被转化为固定维度的高质量语义向量。
聚类算法识别诉求群体：
- 使用 KMeans、DBSCAN、HDBSCAN 等算法对 embedding 结果聚类；
- 每一类代表一个“用户共性诉求主题”；
- 可结合聚类中心、Top-N关键词、示例句子进行主题命名。
新问题自动发现：
- 每日新增数据动态聚类；
- 可追踪热点变化、发现以往未涵盖的新类型问题。
人工标签辅助&反馈机制：
- 可选步骤：人工审核聚类样本，为模型微调提供标签；
- 支持持续优化的“半监督反馈闭环”。

项目效果

准确率提升：相较于正则方式，聚类准确率提升 30%+；
发现新问题能力大幅提升，解决了“已知问题优先”的盲点；
人力成本降低：自动归类显著减少人工审核负担；
可持续演化：模型可持续训练，适配用户语言变迁。

ZYX HOME

Explorer

用户诉求聚类

项目介绍

🔥 项目背景

🚀 解决方案

✅ 技术流程概述：

项目效果

Graph View

Table of Contents

Backlinks