戳蓝色字关注我们哟!
1
维度选择
对人群进行不同类别划分,需要用户的历史消费行为数据。对优惠敏感度划分,需要重点关注优惠相关的维度。通常,一个用户优惠敏感性越高,他享受优惠的交易笔数越高,享受优惠金额也越高,因此,优惠交易数、优惠总金额、平均每单优惠金额、优惠交易笔数占所有交易笔数比例、最近一个月内优惠交易笔数、最近一次享受优惠时间等,都可以作为模型的备选维度。
维度:优惠总金额、平均每单优惠金额、优惠交易笔数占所有交易笔数比例
时间窗口:一年
字段名 | 含义 |
id | 用户id |
total_at | 一年总消费金额 |
discount | 优惠金额 |
dis_num | 优惠笔数 |
total_num | 总交易笔数 |
mean_dis_at | 优惠交易笔数占所有交易笔数比例 |
下面开始具体的人群优惠敏感度划分过程。
1、载入相应库,导入数据,进行数据预处理。本例数据中无缺失值,也无逻辑上的异常数据(如:优惠笔数大于总笔数),因此未过多展示数据清洗过程,实际操作中应注意对脏数据判断剔除。
2、选择合适的聚类数目。这里我们选择Calinski-Harabasz指数确定最佳聚类数目。
3、k-means聚类。因为本例中三个维度数据均为百分比,取值在0到1之间,因此未做数据标准化。正常情况下聚类前需要对数据进行标准化处理。
输出为每类中心点和个数,并且三者之和越小,代表价格敏感度越低,因此我们可以计算每类中心点三个值的和。
4、聚类结果可视化。案例中的数据为3维,这里我们选择PCA方法对数据进行降维,方便在平面坐标中对聚类结果进行展示。参数n_components=2表示降为2维。
往期推荐
· WOE与IV值
爱我,请给我好看