2026/4/11 3:24:22
网站建设
项目流程
对重庆电子政务网站建设评价,长沙做网站的包吃包住4000,织梦模板栏目页文件在哪,北京网页设计高端定制人工智能之核心基础 机器学习
第七章 监督学习总结 文章目录人工智能之核心基础 机器学习一、监督学习核心任务回顾二、六大主流监督学习算法详解对比1. **线性回归 逻辑回归**2. **决策树#xff08;Decision Tree#xff09;**3. **随机森林#xff08;Random Fore…人工智能之核心基础 机器学习第七章 监督学习总结文章目录人工智能之核心基础 机器学习一、监督学习核心任务回顾二、六大主流监督学习算法详解对比1. **线性回归 逻辑回归**2. **决策树Decision Tree**3. **随机森林Random Forest**4. **梯度提升树XGBoost / LightGBM**5. **支持向量机SVM**6. **朴素贝叶斯Naive Bayes**三、算法选择决策树四、各算法核心优缺点速查表五、代码实现统一模板Scikit-learn六、总结没有“最好”只有“最合适”资料关注一、监督学习核心任务回顾监督学习解决两类问题任务类型目标输出形式典型场景分类预测离散类别标签“是/否”、“猫/狗/鸟”垃圾邮件识别、疾病诊断回归预测连续数值房价、温度、销售额房价预测、销量预测✅ 所有以下算法均可用于分类或回归部分需变体但各有侧重。二、六大主流监督学习算法详解对比1.线性回归 逻辑回归特性线性回归逻辑回归任务类型回归分类主要是二分类核心思想拟合一条直线超平面用Sigmoid将线性输出转为概率损失函数平方误差MSE交叉熵损失输出解释预测值如300万元属于正类的概率如85%可解释性⭐⭐⭐⭐⭐权重特征重要性⭐⭐⭐⭐系数符号表示影响方向是否需要特征缩放否但推荐是尤其用梯度下降时典型应用房价、销量预测疾病风险、用户转化预测关键区别线性回归 → 预测“多少”逻辑回归 → 预测“是不是”2.决策树Decision Tree特性说明任务类型分类 回归核心思想if-else规则链分而治之特征选择信息增益、Gini不纯度可解释性⭐⭐⭐⭐⭐可视化规则是否需要特征缩放❌ 不需要处理非线性✅ 天然支持缺点容易过拟合需剪枝典型应用业务规则提取、客户分群优势像人一样思考业务人员能看懂3.随机森林Random Forest特性说明本质决策树的集成Bagging核心机制多棵树投票分类/平均回归随机性来源样本随机Bootstrap 特征随机可解释性⭐⭐黑盒但可输出特征重要性抗过拟合✅ 强比单棵树好得多训练速度中等可并行典型应用通用分类/回归、特征重要性分析一句话把多个“不太准”的树组合成一个“很准”的模型。4.梯度提升树XGBoost / LightGBM特性说明本质决策树的集成Boosting核心机制串行训练每棵树纠正前一棵的错误优化目标最小化损失函数的梯度精度⭐⭐⭐⭐⭐Kaggle常胜将军可解释性⭐⭐提供SHAP值可解释调参难度较高需调 learning_rate, n_estimators 等典型应用竞赛、高精度工业模型⚡XGBoost vs LightGBMXGBoost精度高功能全LightGBM更快、更省内存适合大数据5.支持向量机SVM特性说明任务类型主要用于分类回归可用SVR核心思想找最大间隔的分隔超平面处理非线性✅ 通过核函数RBF最常用可解释性⭐黑盒仅支持向量有意义是否需要特征缩放✅ 必须尤其RBF核数据规模适应性❌ 不适合大数据10万样本慢典型应用文本分类、中小规模高维数据关键参数C正则强度、gammaRBF核影响范围6.朴素贝叶斯Naive Bayes特性说明任务类型分类不用于回归核心假设特征条件独立“朴素”之处训练速度⭐⭐⭐⭐⭐极快内存占用极小可解释性⭐⭐可看特征对类别的贡献典型变体高斯NB连续、多项式NB文本、伯努利NB二值最佳场景✅ 文本分类垃圾邮件、情感分析行业事实尽管简单仍是文本分类首选baseline三、算法选择决策树四、各算法核心优缺点速查表算法优点缺点适用场景线性/逻辑回归可解释强、训练快、理论清晰只能学线性关系基线模型、可解释需求决策树可视化、无需预处理、处理非线性易过拟合、不稳定规则提取、快速原型随机森林稳定、抗过拟合、自动特征重要性黑盒、内存大通用任务、特征筛选XGBoost/LightGBM精度高、支持多种目标调参复杂、训练慢竞赛、高精度需求SVM高维有效、泛化好大数据慢、难调参文本、中小规模数据朴素贝叶斯极快、小样本有效、文本王者独立假设强、概率不准垃圾邮件、情感分析五、代码实现统一模板Scikit-learnfromsklearn.model_selectionimporttrain_test_splitfromsklearn.preprocessingimportStandardScalerfromsklearn.metricsimportaccuracy_score,mean_squared_error# 1. 数据准备X_train,X_test,y_train,y_testtrain_test_split(X,y,test_size0.2)# 2. 特征缩放仅SVM、逻辑回归等需要ifmodel_needs_scaling:scalerStandardScaler()X_trainscaler.fit_transform(X_train)X_testscaler.transform(X_test)# 3. 模型训练model.fit(X_train,y_train)# 4. 预测与评估y_predmodel.predict(X_test)ifclassification:print(准确率:,accuracy_score(y_test,y_pred))else:print(RMSE:,mean_squared_error(y_test,y_pred,squaredFalse))✅Scikit-learn统一接口.fit(),.predict(),.score()除XGBoost/LightGBM需单独安装其余均内置六、总结没有“最好”只有“最合适”需求推荐算法快速出结果朴素贝叶斯、逻辑回归业务可解释决策树、线性模型高精度竞赛XGBoost、LightGBM文本分类朴素贝叶斯 SVM(线性) 随机森林中小规模通用随机森林首选、SVM大数据回归LightGBM、随机森林黄金建议先跑一个简单模型如逻辑回归或朴素贝叶斯作为baseline再逐步尝试复杂模型。很多时候简单模型已经足够好资料关注公众号咚咚王giteehttps://gitee.com/wy18585051844/ai_learning《Python编程从入门到实践》《利用Python进行数据分析》《算法导论中文第三版》《概率论与数理统计第四版 (盛骤) 》《程序员的数学》《线性代数应该这样学第3版》《微积分和数学分析引论》《西瓜书周志华-机器学习》《TensorFlow机器学习实战指南》《Sklearn与TensorFlow机器学习实用指南》《模式识别第四版》《深度学习 deep learning》伊恩·古德费洛著 花书《Python深度学习第二版(中文版)【纯文本】 (登封大数据 (Francois Choliet)) (Z-Library)》《深入浅出神经网络与深度学习(迈克尔·尼尔森MichaelNielsen》《自然语言处理综论 第2版》《Natural-Language-Processing-with-PyTorch》《计算机视觉-算法与应用(中文版)》《Learning OpenCV 4》《AIGC智能创作时代》杜雨张孜铭《AIGC原理与实践零基础学大语言模型、扩散模型和多模态模型》《从零构建大语言模型中文版》《实战AI大模型》《AI 3.0》