2026/2/12 17:45:46
网站建设
项目流程
佛山狮山网站建设,招商网站平台,响应式网站设计与实现论文,网片价格在生产环境下#xff0c;有时会遇到file not found、file lost 这类错误#xff0c;在这种情况下#xff0c;很有可能是Executor 的BlockManager 在拉取数据的时候#xff0c;无法建立连接#xff0c;然后超过默认的连接等待时长60s 后#xff0c;宣告数据拉取失败#…在生产环境下有时会遇到file not found、file lost 这类错误在这种情况下很有可能是Executor 的BlockManager 在拉取数据的时候无法建立连接然后超过默认的连接等待时长60s后宣告数据拉取失败如果反复尝试都拉取不到数据可能会导致Spark 作业的崩溃。这种情况也可能会导致DAGScheduler 反复提交几次stageTaskScheduler 返回提交几次task大大延长了我们的Spark 作业的运行时间。在 Spark 中调节 JVM 的连接等待时长通常涉及修改资源管理器的相关配置参数。具体步骤如下以 YARN 模式为例1. 关键参数说明核心参数为spark.yarn.am.longPollWaitTime该参数控制 Application MasterAM向 Resource ManagerRM请求资源时的轮询等待时间单位毫秒。默认值通常为5000即 5 秒若集群资源紧张或响应较慢可适当提高此值。2. 配置方法方式一通过spark-defaults.conf文件在 Spark 配置文件conf/spark-defaults.conf中添加spark.yarn.am.longPollWaitTime 10000 # 设置为 10 秒方式二提交任务时动态指定在spark-submit命令中通过--conf参数设置spark-submit \ --conf spark.yarn.am.longPollWaitTime10000 \ --class your.MainClass \ /path/to/your-app.jar3. 注意事项适用场景此参数主要用于缓解因 RM 响应延迟导致的连接超时问题如Connection timed out错误。平衡设置值过低可能导致频繁轮询增加 RM 负载值过高可能延迟资源获取。建议根据集群规模逐步测试如5000→10000→15000。其他相关参数若问题与网络相关可同步检查spark.network.timeout默认120s或spark.rpc.lookupTimeout默认120s。4. 验证配置提交任务后在 Spark Web UI 的Environment页签检查参数是否生效spark.yarn.am.longPollWaitTime: 10000通过调整此参数可优化 JVM 在资源请求阶段的连接等待行为。