2026/3/20 4:07:22
网站建设
项目流程
做外贸网站做成哪种形式好,北京西站咨询服务电话,网站正在建设中敬请,昆明官网seo费用视频链接
视频链接
博客链接
一、基本架构
随机森林是Bagging#xff08;Bootstrap Aggregating#xff09; “自助采样 平均/投票”的一种
有很多决策树#xff0c;不同决策树训练的数据集不一样#xff0c;看问题的角度不一样#xff0c;运行结果不一样#xff…视频链接视频链接博客链接一、基本架构随机森林是BaggingBootstrap Aggregating “自助采样 平均/投票”的一种有很多决策树不同决策树训练的数据集不一样看问题的角度不一样运行结果不一样将不同结论综合起来得到随机森林最终的输出。特点是处理多个特征的样本数据二、原理一随机森林的随机在于哪里体现在数据集样本的随机抽样选择和待选特征的随机抽样选择使得每一棵树的样本、特征都是不同的。使得每一棵树的样本、特征都是不同的。数据集样本的随机抽样选择从原始的数据集中采取有放回的抽样BaggingBootstrap Aggregating构造子数据集子数据集的数据量是和原始数据集相同的。不同子数据集的元素可以重复同一个子数据集中的元素也可以重复。待选特征的随机抽样选择与数据集的随机选取类似随机森林中的子树的每一个分裂过程并未用到所有的待选特征而是从所有的待选特征中随机选取一定的特征之后再在随机选取的特征中选取最优的特征。二要点训练数据从总数据中取小n个样本小d个数据保证每个训练数据都不一样对regression问题通过求均值整合结果对classification问题通过求众数整合结果三步骤1先采用放回抽样的方式抽取样本2用不同的样本分别训练不同的决策树3假设有M个特征选择有一部分数据特征为mmM,每一次分裂都是从m中选一个出来减小m树之间的相关性降低增大m树之间相关性变高。研究之后m取样本数开根号4每个决策树会产生一个输出如果是分类问题就通过众数决定投票如果是回归就取平均四影响模型效果好坏的因素1每个树的特征数前面提到的m一般取2决策树的棵树一般默认为1003树深太深每棵树都会过度学习会过拟合五评价指标三、优缺点优点1.它可以处理很高维度特征很多的数据并且不用降维无需做特征选择2.它可以判断特征的重要程度3.可以判断出不同特征之间的相互影响4. 不容易过拟合5.训练速度比较快容易做成并行方法6.实现起来比较简单7.对于不平衡的数据集来说它可以平衡误差。8.如果有很大一部分的特征造失仍可以维持准确度。缺点1.随机森林已经被证明在某些噪音较大的分类或回归问题上会过拟合。2.对于有不同取值的属性的数据取值划分较多的属性会对随机森林产生更大的影响所以随机森林在这种数据上产出的属性权值是不可信的四、决策树、如何选择最优的决策条件不同的分支选显示的特征不同。熵ENTROPY:Measures The Uncertainty in a mode样本一致性低熵越大不确定性越高决策树的整体流程决策树的优缺点优点直观好理解缺点1.对于树的最大深度这个预制参数很敏感深度太大可能overfit深度太小可能underfit树的深度1太浅分类过程没有完全结束underfit2太深模型缺乏普适性过拟合overfit2.计算效率不高决策树有什么缺点才需要随机森林决策树特别是深树在“单兵作战”时有三大**原生缺陷**随机森林正是逐条对症下药1.高方差—— 数据稍微动一下树就长得面目全非成因分裂准则信息增益/Gini是 贪婪最大化 把训练集每一丝波动都当成“真理”刻进去。后果换一批样本或调几个点树结构、预测结果都可能剧变稳定性极差。→ 随机森林用 Bootstrap 平均/投票 把方差直接砍到 1/B 量级。2.极易过拟合—— 只要一直分层总能把叶子纯度刷到 100 %成因节点可无限细分训练误差能压到 0。后果训练集 100 %测试集 70 %经典“背题库”现场。→ 随机森林靠 多树集成 随机特征子集 引入扰动让单棵树“背不下来”集成后反而泛化更好。3.对噪声、异常值敏感—— 一个脏点就能把整棵树的早期分裂带歪成因顶层分裂由全局最优指标决定脏数据一旦成为“最佳切点”误差一路向下放大。后果一条异常记录可让预测偏差飞出边界。→ 随机森林的 样本重采样 特征随机 让异常点大概率进不了部分子树即使进入也只影响少数树最终投票被稀释。额外副作用- 线性/加性结构捕捉差、对旋转敏感、无法外推等随机森林也能顺带缓解虽非主因。总结决策树把“偏差压到极低、方差飙到极高”当成默认选项随机森林用Bootstrap 采样和随机特征子集人为注入扰动再把多棵高方差树“平均”掉波动于是方差骤降、过拟合收敛、鲁棒性飙升——这就是“树必须抱团”才堪大用的根本原因。