2026/4/12 16:34:24
网站建设
项目流程
php成品网站源码,建网站价格 建设网站需要多少钱6,开发网站开发,网站开发具体工作有那些转型AI运维工程师Day 1#xff1a;一片空白的 AWS 和“嗷嗷待哺”的算法博士
心情#xff1a; 肾上腺素飙升#xff0c;但也伴随着对巨额成本的敬畏 任务#xff1a; 搭建高性能 AI 训练集群 (HPC Cluster) 关键词#xff1a; AWS P4d, EFA, Placement Group, Self-Refer…转型AI运维工程师·Day 1一片空白的 AWS 和“嗷嗷待哺”的算法博士心情肾上腺素飙升但也伴随着对巨额成本的敬畏任务搭建高性能 AI 训练集群 (HPC Cluster)关键词AWS P4d, EFA, Placement Group, Self-Referencing SG, Quota今天是我加入这家创业公司的第一天。 公司决定从传统 SaaS 转型做垂直领域的行业大模型。作为唯一的资深运维背着 AWS SAP 证书我看着那个只跑着几个 Java 微服务的 AWS 账号心里清楚今天将是推倒重来的一天。上午 10:00首席科学家李博士推门进来没有寒暄直接抛出了需求“YY为了跑通那个 70B700亿参数的大模型我需要32 张 A100。我知道这很难但投资人在看进度最好今天能把环境给我。”32 张 A100。我快速在脑海里换算了一下硬件对应这是 4 台 AWS 的p4d.24xlarge实例每台 8 卡。成本估算每台机器每小时 32.7 美金。4 台机器跑一天就是3,000 多美金。架构难点这不是开 4 台独立的 Web 服务器这 4 台机器必须像“连体婴儿”一样工作显卡之间通信延迟必须极低否则钱都在烧在等待网络传输上。我深吸一口气“博士给我 8 小时。今晚让您跑上代码。”第一步地基规划 —— 拒绝与旧业务混用我不打算把这些昂贵的 GPU 放在公司现有的 VPC 里。AI 训练流量巨大且对 IP 规划有特殊要求。创建 VPC (vpc-ai-training-prod)CIDR 给大一点10.100.0.0/16。子网规划与 AZ 选择我查了 AWS 文档P4d 这种顶级实例不是每个可用区都有的。我特意选了us-east-1 (N. Virginia)的核心可用区us-east-1a。创建了一个Private Subnet(10.100.1.0/24)。关键架构决策我坚决不给 GPU 机器分配公网 IP。它们通过NAT Gateway访问 Hugging Face 下载模型通过堡垒机Bastion Host进行 SSH 登录。这是 SAP 架构师的安全底线。第二步物理层“连体” —— Placement Group为了满足李博士“分布式训练”的需求这 4 台机器在物理数据中心里必须挨得足够近。如果一台在楼上一台在楼下光缆传输的微秒级延迟就会拖累训练速度。操作记录进入EC2 Console-Placement Groups。点击Create。Name:pg-ai-cluster-01。Strategy:选择Cluster集群模式。原理这会强制 AWS 把随后启动的实例调度到同一个机架Rack或相邻机架实现Full Bisection Bandwidth全双分带宽。第三步打通“光纤” —— EFA 与安全组的坑这是最容易翻车的地方。为了启用EFA (Elastic Fabric Adapter)也就是 AWS 版的 RDMA绕过内核直接通信安全组必须特殊配置。操作记录创建 Security Group命名为sg-ai-cluster-communication。配置 Inbound Rules入站规则误区新手通常只开 22 (SSH) 或 80 (HTTP)。正解我添加了一条特殊的规则。Type:All TrafficProtocol:AllSource:sg-ai-cluster-communication(选择这个安全组的 ID比如sg-0abcd...)解释这就是Self-Referencing。EFA 通信协议底层极其复杂必须允许该组内的机器互相信任端口全开。如果不配这条几万美金的网卡就会降级成普通网卡。第四步最艰难的卡点 —— Quota 申请下午 2:00地基打好我尝试启动一台试试。报错InstanceLimitExceeded。 果然AWS 默认给 P4d 这种核武器级别的实例配额是0。运维摇人环节我没有在 Support Center 傻等。我直接拨通了 AWS 客户经理AM的电话“老哥我们公司转型 AI 了李博士的项目今晚必须见到机器。帮我加急批 4 台 P4d 的额度一共 384 vCPU。” AM 也很给力拿着我们刚签的承诺消费单去后台推流程。下午 5 点Quota 邮件到了Approved。第五步启动实例 —— 见证金钱燃烧万事俱备开始 Launch Instances。配置清单AMI搜索Deep Learning AMI GPU PyTorch 2.0.1 (Ubuntu 20.04)。理由我不想花一下午时间去解决 NVIDIA 驱动和 Linux 内核的冲突。这个 AMI 预装了 EFA 驱动、CUDA、NCCL 和 PyTorch。Instance Type:p4d.24xlarge(8 x A100 40GB)。Network:VPC:vpc-ai-training-prodSubnet:private-subnet-1a(私有子网)Security Group: 选中sg-ai-cluster-communication。关键操作点击 Advanced network configuration在 Network interface 1 处将Interface type显式改为EFA。如果不改系统只会把它当普通网卡用。Advanced Details:Placement Group:选中pg-ai-cluster-01。Count:4。点击Launch。 几秒钟后控制台显示 4 行绿色的Running。那一刻我仿佛听到了计费系统疯狂转动的声音。第六步最终验证我通过公网 SSH 登录到堡垒机然后再次 SSH 跳转到其中一台内网 IP 为10.100.1.10的 P4d 机器上全程 Linux 命令行走 Port 22。1. 查显卡输入命令nvidia-smi屏幕上弹出了那张著名的表格8 x NVIDIA A100-SXM4-40GB。 4 台机器总共 32 张卡状态全部正常。2. 查网络 (EFA)输入命令fi_info -p efa终端输出了一长串关于efaprovider 的底层信息。这意味着 OS Bypass 功能已激活。下班前的邮件To:Dr. LiSubject:32卡 A100 集群已就绪博士 训练集群已交付。规模4 x p4d.24xlarge (共 32 x A100)网络EFA 已启用机器位于同一 Placement Group物理延迟已优化至最低。环境PyTorch 2.0 CUDA 预装。访问请通过堡垒机 SSH 连接10.100.1.10~13。祝训练顺利。YY关上电脑我长舒一口气。Day 1 完美通关。 但我也知道只要机器开着问题就会来。明天李博士肯定会抱怨命令行不好用或者监控数据看不全。Day 1 结束