绵阳网站搜索优化一米设计公司-新星市网站建设公司-Seo优化

绵阳网站搜索优化一米设计公司

2026/4/24 6:00:34 网站建设项目流程

绵阳网站搜索优化,一米设计公司,怎么制作网页广告,怎么登录小程序平台优化和深度学习学习目标本课程将讨论优化与深度学习之间的关系以及在深度学习中使用优化的挑战。对于深度学习问题#xff0c;通常会先定义损失函数。一旦有了损失函数#xff0c;就可以使用优化算法来尝试最小化损失。在优化中#xff0c;损失函数通常被称为优化问题的目…优化和深度学习学习目标本课程将讨论优化与深度学习之间的关系以及在深度学习中使用优化的挑战。对于深度学习问题通常会先定义损失函数。一旦有了损失函数就可以使用优化算法来尝试最小化损失。在优化中损失函数通常被称为优化问题的目标函数。按照传统惯例大多数优化算法都关注的是最小化。如果需要最大化目标那么有一个简单的解决方案在目标函数前加负号即可。相关知识点优化和深度学习学习内容1 优化和深度学习尽管优化提供了一种最大限度地减少深度学习损失函数的方法但本质上优化和深度学习的目标是根本不同的。前者主要关注的是最小化目标后者则关注在给定有限数据量的情况下寻找合适的模型。例如训练误差和泛化误差通常不同由于优化算法的目标函数通常是基于训练数据集的损失函数因此优化的目标是减少训练误差。但是深度学习的目标是减少泛化误差。为了实现后者除了使用优化算法来减少训练误差之外还需要注意过拟合。%pip install d2l%matplotlib inlineimportnumpyasnpimporttorchfrommpl_toolkitsimportmplot3dfromd2limporttorchasd2l为了说明上述不同的目标引入两个概念风险和经验风险。经验风险是训练数据集的平均损失而风险则是整个数据群的预期损失。下面定义了两个函数风险函数f和经验风险函数g。假设只有有限的训练数据。因此这里的g不如f平滑。deff(x):returnx*torch.cos(np.pi*x)defg(x):returnf(x)0.2*torch.cos(5*np.pi*x)下图说明训练数据集的最低经验风险可能与最低风险泛化误差不同。defannotate(text,xy,xytext):#saved2l.plt.gca().annotate(text,xyxy,xytextxytext,arrowpropsdict(arrowstyle-))xtorch.arange(0.5,1.5,0.01)d2l.set_figsize((4.5,2.5))d2l.plot(x,[f(x),g(x)],x,risk)annotate(min of\nempirical risk,(1.0,-1.2),(0.5,-1.1))annotate(min of risk,(1.1,-1.05),(0.95,-0.5))本课程将关注优化算法在最小化目标函数方面的性能而不是模型的泛化误差。在深度学习中大多数目标函数都很复杂没有解析解。相反必须使用数值优化算法。本课程中的优化算法都属于此类别。深度学习优化存在许多挑战。其中最令人烦恼的是局部最小值、鞍点和梯度消失。1.1 局部最小值对于任何目标函数(f(x)(f(x)(f(x)如果在xxx处对应的f(x)f(x)f(x)值小于在xxx附近任意其他点的f(x)f(x)f(x)值那么f(x)f(x)f(x)可能是局部最小值。如果f(x)f(x)f(x)在xxx处的值是整个域中目标函数的最小值那么f(x)f(x)f(x)是全局最小值。例如给定函数f(x)x⋅cos(πx) for −1.0≤x≤2.0 f(x) x \cdot \text{cos}(\pi x) \text{ for } -1.0 \leq x \leq 2.0f(x)x⋅cos(πx)for−1.0≤x≤2.0可以近似该函数的局部最小值和全局最小值。xtorch.arange(-1.0,2.0,0.01)d2l.plot(x,[f(x),],x,f(x))annotate(local minimum,(-0.3,-0.25),(-0.77,-1.0))annotate(global minimum,(1.1,-0.95),(0.6,0.8))深度学习模型的目标函数通常有许多局部最优解。当优化问题的数值解接近局部最优值时随着目标函数解的梯度接近或变为零通过最终迭代获得的数值解可能仅使目标函数局部最优而不是全局最优。只有一定程度的噪声可能会使参数跳出局部最小值。事实上这是小批量随机梯度下降的有利特性之一。在这种情况下小批量上梯度的自然变化能够将参数从局部极小值中跳出。1.2 鞍点除了局部最小值之外鞍点是梯度消失的另一个原因。鞍点saddle point是指函数的所有梯度都消失但既不是全局最小值也不是局部最小值的任何位置。考虑这个函数f(x)x3f(x) x^3f(x)x3。它的一阶和二阶导数在x0x0x0时消失。这时优化可能会停止尽管它不是最小值。xtorch.arange(-2.0,2.0,0.01)d2l.plot(x,[x**3],x,f(x))annotate(saddle point,(0,-0.2),(-0.52,-5.0))如下例所示较高维度的鞍点甚至更加隐蔽。考虑这个函数f(x,y)x2−y2f(x, y) x^2 - y^2f(x,y)x2−y2。它的鞍点为(0,0)(0, 0)(0,0)。这是关于yyy的最大值也是关于xxx的最小值。此外它看起来像个马鞍这就是鞍点的名字由来。x,ytorch.meshgrid(torch.linspace(-1.0,1.0,101),torch.linspace(-1.0,1.0,101))zx**2-y**2axd2l.plt.figure().add_subplot(111,projection3d)ax.plot_wireframe(x,y,z,**{rstride:10,cstride:10})ax.plot([0],[0],[0],rx)ticks[-1,0,1]d2l.plt.xticks(ticks)d2l.plt.yticks(ticks)ax.set_zticks(ticks)d2l.plt.xlabel(x)d2l.plt.ylabel(y);假设函数的输入是kkk维向量其输出是标量因此其Hessian矩阵也称黑塞矩阵将有kkk个特征值。函数的解可能是局部最小值、局部最大值或函数梯度为零位置处的鞍点当函数在零梯度位置处的Hessian矩阵的特征值全部为正值时有该函数的局部最小值当函数在零梯度位置处的Hessian矩阵的特征值全部为负值时有该函数的局部最大值当函数在零梯度位置处的Hessian矩阵的特征值为负值和正值时有该函数的一个鞍点。对于高维度问题至少部分特征值为负的可能性相当高。这使得鞍点比局部最小值更有可能出现。简而言之凸函数是Hessian函数的特征值永远不为负值的函数。不幸的是大多数深度学习问题并不属于这一类。尽管如此它还是研究优化算法的一个很好的工具。1.3 梯度消失可能遇到的最隐蔽问题是梯度消失。例如假设想最小化函数f(x)tanh⁡(x)f(x) \tanh(x)f(x)tanh(x)然后恰好从x4x 4x4开始。正如所看到的那样fff的梯度接近零。更具体地说f′(x)1−tanh⁡2(x)f(x) 1 - \tanh^2(x)f′(x)1−tanh2(x)因此是f′(4)0.0013f(4) 0.0013f′(4)0.0013。因此在取得进展之前优化将会停滞很长一段时间。事实证明这是在引入ReLU激活函数之前训练深度学习模型相当棘手的原因之一。xtorch.arange(-2.0,5.0,0.01)d2l.plot(x,[torch.tanh(x)],x,f(x))annotate(vanishing gradient,(4,1),(2,0.0))正如所看到的那样深度学习的优化充满挑战。幸运的是有一系列强大的算法表现良好即使对于初学者也很容易使用。此外没有必要找到最优解。局部最优解或其近似解仍然非常有用。

标签：网站建设企业官网项目流程 UI设计前端开发

您可能感兴趣的其他内容

企业官网建设流程全解析

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

热门文章

灯具网站怎么做新手可以做网站营运吗

2013网站怎么备案葫芦岛长城建设公司网站

php做网站的公司有哪些科技小制作小发明

网站系统的建设与管理iis部署网站项目

保定网站建设制作开发平台网站备案流程和规则

开发小网站排名如何确定网站建设空间

文章分类

标签云

相关文章

网站美工设计什么是平衡导视标识设计

好商网的网站可以做中英文切换吗太原专业设计网页公司

百度浏览器网站入口制作好的网页模板如何放入网站cms中

需要专业的网站建设服务？