🌟🌟🌟 embedding 聚类

基于 BERT embedding + 聚类自研用户诉求自动分类系统,实现高效归类与新问题发现,准确率提升 30%+,构建半监督反馈闭环,显著降低人工负担并支持模型持续演化。

graph TD
    A[每日用户文字诉求(几十万条)] --> B[文本清洗 & 预处理]
    B --> C[BERT 编码为语义向量]
    C --> D[无监督聚类(KMeans / DBSCAN)]
    D --> E[聚类结果输出]
    E --> F[Top-N关键词 + 示例句子生成标签]
    E --> G[发现新类型诉求]
    F --> H[人工审核可选介入,持续优化聚类质量]

项目介绍

🔥 项目背景

支付宝某应用每日接收到几十万条用户文字诉求反馈,内容高度非结构化、词汇表达多样,传统做法依赖大量正则规则进行分类整理。然而:

  • 准确率低:表达差异大,规则难以覆盖所有变种;
  • 维护困难:规则数量庞大,需频繁人工更新;
  • 难以发现新问题:只能识别已知问题,对新兴诉求无能为力

🚀 解决方案

为应对大规模非结构化文本诉求,本项目引入BERT Embedding + 聚类分析的智能处理方案。

✅ 技术流程概述:

  1. 语义向量化(Embedding)
    • 使用预训练的 BERT 模型(或轻量版本如 MiniLM)对用户诉求进行语义编码;
    • 每条反馈被转化为固定维度的高质量语义向量。
  2. 聚类算法识别诉求群体
    • 使用 KMeans、DBSCAN、HDBSCAN 等算法对 embedding 结果聚类;
    • 每一类代表一个“用户共性诉求主题”;
    • 可结合聚类中心、Top-N关键词、示例句子进行主题命名。
  3. 新问题自动发现
    • 每日新增数据动态聚类;
    • 可追踪热点变化、发现以往未涵盖的新类型问题。
  4. 人工标签辅助&反馈机制
    • 可选步骤:人工审核聚类样本,为模型微调提供标签;
    • 支持持续优化的“半监督反馈闭环”。

项目效果

  • 准确率提升:相较于正则方式,聚类准确率提升 30%+
  • 发现新问题能力大幅提升,解决了“已知问题优先”的盲点;
  • 人力成本降低:自动归类显著减少人工审核负担;
  • 可持续演化:模型可持续训练,适配用户语言变迁。