2026/4/14 17:42:00
网站建设
项目流程
怎么做触屏版网站,资源搜索器,手机优化师下载,wordpress 自建模版这张图把频率学派线性回归#xff08;左#xff09;和贝叶斯线性回归#xff08;右#xff09;做了一个“同题不同解”的对比。1) 图左#xff1a;频率学派#xff08;Frequentist#xff09;在说什么假设模型#xff1a;β0,β1 是固定但未知的常数通过最小二乘/极大似…这张图把频率学派线性回归左和贝叶斯线性回归右做了一个“同题不同解”的对比。1) 图左频率学派Frequentist在说什么假设模型β0,β1 是固定但未知的常数通过最小二乘/极大似然从数据里估出一个最佳点估计图里例子给出最终画出来就是一条线外加你可能会另外算“置信区间/预测区间”但核心仍是“参数固定”2) 图右贝叶斯回归在说什么图的关键贝叶斯的核心换了一句话参数不是固定常数而是“带不确定性的随机变量”。(1) 先给参数一个先验prior图中画了两条钟形曲线表示直观解释μ你“先验上觉得”截距/斜率大概在哪σ2你对这个猜测有多自信越大越不确定(2) 数据生成假设likelihood右侧写着意思是给定 β0,β1 后y 围绕直线 β0β1x 有高斯噪声。(3) 用数据更新先验 → 得到后验posterior贝叶斯公式一句话先验你原本的看法似然数据“支持哪些参数”后验综合之后你对参数的新信念不确定性通常会变小(4) “sampling” 与右图那一束线图中 “sampling” 表示从后验里抽样出很多组参数每抽到一组参数就对应一条回归线所以你看到右图不是一条线而是一束线 灰色不确定带线束越“散”表示参数/预测越不确定数据多、噪声小、先验强线束会更“收拢”3) 贝叶斯回归最有用的输出预测分布predictive贝叶斯最爽的地方是它天然给你它不是“给一个点”而是直接给你在某个 x\* 下y\* 会落在哪些范围的概率。右图灰带就可以理解成某种“可信区间/预测区间”比如 95% credible interval。4) 你可以用它解决哪些“频率学派不好用/不直观”的问题小样本先验能稳定估计避免斜率飘得离谱正则化的自然解释给 β 正态先验 ≈ 一种“L2 正则”岭回归的贝叶斯视角不确定性更直观直接说“β1 有 95% 概率在 [a,b]”融入领域知识比如你确定斜率应该为正、或大概在某个范围5) 一句话总结这张图频率学派一条最佳线参数固定贝叶斯一团可能的线参数有分布并且能直接给出预测的不确定性。那我就用一个**“能手算/看懂”**的小例子把贝叶斯线性回归从先验 → 后验 → 采样 → 预测区间完整走一遍对应你图右边的 sampling 灰色不确定带。0) 玩具数据我们观测 3 个点看起来接近 y12xx012y1351) 模型likelihood贝叶斯线性回归常用的高斯噪声模型为了让例子简单、计算干净我们先假设噪声方差已知现实里也可以一起贝叶斯化后面我会说一句怎么做。2) 先验prior给参数一个“你原本的看法”。比如“我觉得截距/斜率大概在 0 附近但不确定性很大”这就对应你图里 β0,β1 的两条钟形曲线均值是你先验猜测不确定性由方差控制。3) 后验posterior把数据“喂进去”更新先验在“高斯噪声 正态先验”的设置下是共轭的后验仍是正态分布。把设计矩阵写出来第一列全 1 表示截距项后验的公式你可以把它当成一个“贝叶斯版的正规方程”在本例中计算结果是解释后验均值最“像”频率学派点估计的那一个数β0≈1.013β1≈1.953很接近直觉的 1 和 2。但更关键的是你还得到了不确定性协方差矩阵这就是图右边“不是一条线而是一束线”的根源。顺便给个 95% “参数可信区间”就是把后验当正态做区间β0 大约在 [−0.683, 2.709]β1 大约在 [0.631, 3.275]4) sampling为什么会出现“一束回归线”图右边的 sampling 就是我从这个后验里随手抽 5 组示例(0.879, 1.989)(0.499, 2.371)(1.540, 1.738)(0.126, 3.025)(1.328, 1.147)每一组都对应一条线所以你会看到很多条“可能的回归线”叠在一起——这就是图里的灰色带/线束。5) 预测分布灰色不确定带到底是什么贝叶斯回归最实用的输出是对本例已知预测均值预测方差注意这里多了一个因为观测本身也有噪声举例取 x\*1.5预测均值 ≈3.943预测标准差 ≈1.20595% 预测区间 ≈[1.581, 6.304]这类区间/灰带就是你图右边视觉上表达的东西“在这个 x 处y 可能落在哪些范围以及概率多大”。6) 和频率学派一句话对照频率学派给你一个再额外做置信区间贝叶斯直接给你和不确定性是第一等公民自然出现“线束 灰带”。把刚才那个例子升级成噪声方差也未知的“完整贝叶斯线性回归”。这一步做完你图里右侧那条灰带就更有“概率意义”了而且预测分布会变成Student-t更厚尾更稳健。1) 模型参数 噪声都当随机变量数据仍是那 3 个点(0,1),(1,3),(2,5)似然likelihood先验共轭Normal–Inverse-Gamma为了能“手算/闭式更新”经典选其中。我用一个“弱先验”不太干预数据表示先验很宽松几乎不设定噪声大小2) 后验更新闭式公式设设计矩阵样本数 n3。后验仍然是 Normal–Inverse-Gamma更新为把数字代进去本例算出来后验“最中心”的截距和斜率参数不确定性与相关性顺便的后验是。它的后验均值为这里仅作直觉参考3) 关键变化预测分布变成 Student-t当你把积分掉不再“假设已知”得到(A) 回归“均值线”在的后验分布只看线的不确定性令则(B) 真实观测的预测分布线的不确定性 噪声其中自由度这就是你图里灰色带更“厚”、并且在样本外会明显变宽的原因既有“参数不确定性”也有“噪声不确定性”而且是 t 分布厚尾。4) 用两个点看灰带怎么出来我给你直接算出95% 预测区间对应灰带更像“预测带”在样本区间内预测均值95% 预测区间[2.388, 5.497]在样本区间外灰带会更宽预测均值95% 预测区间[4.563, 9.182]你会看到离数据越远不确定性越大灰带越宽这和右图直觉一致。5) 这一步在图里对应什么“sampling”现在 sampling 更完整了不只抽 β0,β1还会抽抽再抽得到一条线再叠很多条就是“一束线”若再加上观测噪声就能画“预测带”灰色区域