2026/3/27 6:42:36
网站建设
项目流程
php 视频播放网站开发,企业做网站的费用如何科目,建设网站需要租用服务器,做公司网站页面一、Bagging 与 Boosting 概念对比
在风控建模中#xff0c;单一模型#xff08;如逻辑回归、决策树#xff09;有时预测能力有限或易过拟合#xff0c;集成方法通过组合多个弱模型提升稳定性和预测性能。特性Bagging#xff08;Bootstrap Aggregating#xff09;Boostin…一、Bagging 与 Boosting 概念对比在风控建模中单一模型如逻辑回归、决策树有时预测能力有限或易过拟合集成方法通过组合多个弱模型提升稳定性和预测性能。特性BaggingBootstrap AggregatingBoosting梯度提升/迭代提升核心思想并行训练多模型降低方差串行训练模型降低偏差模型关系弱模型独立训练弱模型依赖前一个模型数据采样自助法Bootstrap随机采样每轮关注前一轮预测错误样本输出融合投票/平均加权累加优势降低过拟合、稳定性高提升预测准确性、处理偏差风控常用算法随机森林RFGBDT、XGBoost、LightGBM二、BaggingBootstrap Aggregating2.1 原理Bagging 核心思想通过多次随机采样训练集构建多个模型再将预测结果融合减少模型方差。对原始训练集DDD大小NNN进行自助采样Bootstrap生成BBB个训练子集D1,D2,...,DBD_1, D_2, ..., D_BD1,D2,...,DB每个子集通过有放回抽样样本量通常等于原始训练集在每个子集上训练基础模型BaseLearnerBase LearnerBaseLearner如决策树hb(x)h_b(x)hb(x)预测融合回归问题平均值y^1B∑b1Bhb(x) \hat{y} \frac{1}{B} \sum_{b1}^B h_b(x)y^B1b1∑Bhb(x)分类问题多数投票y^mode(h1(x),...,hB(x)) \hat{y} \text{mode}(h_1(x), ..., h_B(x))y^mode(h1(x),...,hB(x))公式总结分类场景P(Yk∣Xx)1B∑b1B1(hb(x)k) P(Y k | Xx) \frac{1}{B} \sum_{b1}^B \mathbf{1}(h_b(x) k)P(Yk∣Xx)B1b1∑B1(hb(x)k)其中1\mathbf{1}1为指示函数。2.2 风控应用**随机森林RF**是 Bagging 的典型实现应用场景信用违约预测借款人还款/逾期欺诈交易识别客户流失预测特点通过随机采样和特征随机选择减少过拟合高方差模型如深决策树性能显著提升风控优势易处理大量特征对异常值和噪声较鲁棒可提供特征重要性指标便于监管解释2.3 风控实践流程Bagging数据清洗与特征工程包括 WOE、IV 分箱构建训练集并进行自助采样训练随机森林 / Bagging 集成模型模型评估KS、AUC、混淆矩阵输出风险评分或违约概率特征贡献分析变量重要性三、Boosting梯度提升3.1 原理Boosting 核心思想串行训练弱模型每轮重点关注前一轮预测错误的样本逐步减小偏差。每轮生成一个弱分类器hm(x)h_m(x)hm(x)为前一轮误分类样本分配更高权重最终模型通过加权累加FM(x)∑m1Mαmhm(x) F_M(x) \sum_{m1}^M \alpha_m h_m(x)FM(x)m1∑Mαmhm(x)其中αm\alpha_mαm是第mmm个弱模型的权重通常与准确率相关MMM是弱模型数量3.1.1 梯度提升Gradient Boosting将 Boosting 与梯度下降结合每轮拟合残差负梯度rim−[∂L(yi,F(xi))∂F(xi)]∗FF∗m−1 r_{im} - \left[ \frac{\partial L(y_i, F(x_i))}{\partial F(x_i)} \right]*{FF*{m-1}}rim−[∂F(xi)∂L(yi,F(xi))]∗FF∗m−1更新预测Fm(x)Fm−1(x)ν⋅hm(x) F_m(x) F_{m-1}(x) \nu \cdot h_m(x)Fm(x)Fm−1(x)ν⋅hm(x)其中ν\nuν是学习率控制每棵树对总模型的贡献。3.2 风控应用GBDT / XGBoost / LightGBM是 Boosting 的主流实现风控场景信用评分卡增强版欺诈行为识别实时交易评分风险预测、逾期预测特点高准确率、低偏差可以处理类别、连续变量和缺失值提供特征重要性可用于解释性分析注意事项易过拟合 → 需调节树深、学习率、样本权重对异常样本敏感 → 可以结合稳健损失函数3.3 风控实践流程Boosting数据处理与特征工程WOE、IV、缺失值处理构建训练集训练 Boosting 模型调节学习率、树深、弱模型数量可以使用交叉验证选择参数模型评估KS、AUC、PR曲线输出违约概率 → 风险评分可解释性分析特征重要性SHAP 值解释单个客户违约概率贡献四、Bagging vs Boosting 在风控中的对比特性BaggingBoosting训练方式并行训练多模型独立串行训练后续模型依赖前一轮主要作用降低方差稳健性高降低偏差提高准确率弱模型高方差模型如深决策树通常弱模型为浅树数据处理样本自助采样样本加权重关注误分类样本风控优势稳定、可解释性好、抗噪声高准确率处理复杂非线性关系典型算法随机森林 (Random Forest)GBDT、XGBoost、LightGBM五、风控实践总结Bagging适合基准风险模型、稳健性要求高的业务易解释、抗噪声偏向保守型信用决策Boosting适合需要高精度风险预测的场景能捕捉非线性复杂关系可与评分卡结合形成混合模型组合使用风控实践中有时会将 Boosting 输出作为特征再用逻辑回归或 Bagging 模型融合兼顾准确率和解释性