2026/4/15 12:28:09
网站建设
项目流程
开封网站制作哪家好,电子商务网站建设策略,网站建设工作室简介,店铺100个关键词文章目录1 KS值概述2 KS值的计算原理2.1 基本概念2.2 计算步骤3 KS曲线#xff08;KS Plot#xff09;理想情况下的KS曲线#xff1a;4 KS值的解读标准5 计算示例6 KS值的优缺点优点#xff1a;缺点#xff1a;7 KS值 vs AUC8 总结1 KS值概述
KS#xff08;Kolmogorov-S…文章目录1 KS值概述2 KS值的计算原理2.1 基本概念2.2 计算步骤3 KS曲线KS Plot理想情况下的KS曲线4 KS值的解读标准5 计算示例6 KS值的优缺点优点缺点7 KS值 vs AUC8 总结1 KS值概述KSKolmogorov-Smirnov值是一种衡量分类模型尤其是二分类模型区分能力的指标。它通过比较正负样本的累积分布来评估模型将好客户和坏客户分开的能力。核心思想一个完美的模型应该能够将所有的坏客户正样本和好客户负样本完全分开。2 KS值的计算原理2.1 基本概念在计算KS值时需要得到模型预测概率模型对每个样本预测为正类如坏客户的概率真实标签样本的真实类别好/坏2.2 计算步骤按预测概率排序将样本按照模型预测的概率从高到低排序等分分组将排序后的样本分成若干组通常10-20组计算累积分布累积好客户占比从概率最高组开始累计好客户数量占总好客户的比例累积坏客户占比从概率最高组开始累计坏客户数量占总坏客户的比例计算KS值找到累积坏客户占比与累积好客户占比的最大差值数学公式K S max i 1 n ∣ F bad ( i ) − F good ( i ) ∣ KS \max_{i1}^{n} |F_{\text{bad}}(i) - F_{\text{good}}(i)|KSi1maxn∣Fbad(i)−Fgood(i)∣其中F bad ( i ) F_{\text{bad}}(i)Fbad(i)前i组中坏客户的累积占比F good ( i ) F_{\text{good}}(i)Fgood(i)前i组中好客户的累积占比n nn分组数量3 KS曲线KS PlotKS值通常通过KS曲线来可视化横轴分组序号从预测概率最高到最低纵轴累积百分比两条曲线坏客户累积分布曲线上升较快因为坏客户集中在高分区域好客户累积分布曲线上升较慢因为好客户相对均匀分布KS值两条曲线之间的最大垂直距离理想情况下的KS曲线坏客户曲线迅速上升到1然后保持平稳好客户曲线缓慢上升两条曲线分离度很大4 KS值的解读标准根据经验KS值的评价标准如下KS值范围模型区分能力评价 0.2差模型基本没有区分能力0.2 - 0.3一般有一定的区分能力但较弱0.3 - 0.5较好模型有较好的区分能力0.5 - 0.75强模型有很强的区分能力 0.75极强可能可疑需要检查是否存在数据泄露注意在金融风控领域KS值通常要求大于0.3KS值不是越高越好过高的KS值可能意味着过拟合或数据泄露KS值对样本分布比较敏感5 计算示例假设我们有10个样本按预测概率排序后的结果样本预测概率真实标签累积坏客户占比累积好客户占比差值10.95坏0.200.220.90坏0.400.430.85好0.40.1250.27540.80坏0.60.1250.47550.75好0.60.250.3560.70坏0.80.250.5570.65好0.80.3750.42580.60好0.80.50.390.55坏1.00.50.5100.50好1.01.00计算过程总坏客户数5个总好客户数5个在第6个样本处差值最大0.55因此KS值 0.556 KS值的优缺点优点直观易懂通过单一数值反映模型区分能力业务解释性强在金融风控中广泛使用不受类别不平衡影响关注的是分布差异而不是绝对数量阈值无关不像准确率那样依赖于特定分类阈值缺点对样本分布敏感样本分布变化会影响KS值只关注最大差异可能忽略了整体的分布信息在深度学习中较少使用更多使用AUC等指标受分组数量影响不同的分组方式可能得到不同的KS值7 KS值 vs AUC特征KS值AUC关注点累积分布的最大差异ROC曲线下的面积范围[0, 1][0.5, 1]业务解释模型最大区分程度整体排序能力敏感性对分布敏感相对稳定应用场景金融风控、信用评分通用分类问题关系一般来说KS值和AUC有正相关关系但不是严格的线性关系。8 总结KS值是风险评分模型中至关重要的评估指标核心衡量模型区分正负样本的能力计算通过比较累积分布的最大差异标准通常要求KS 0.3可视化通过KS曲线直观展示应用特别适用于金融风控、信用评分等场景掌握KS值不仅有助于模型评估还能帮助理解模型的业务表现是在风险建模领域必须掌握的核心指标之一。