建设积分网站网页编程工具
2026/3/31 8:21:00 网站建设 项目流程
建设积分网站,网页编程工具,网站界面 欣赏,洛阳洛龙区网站建设编者按#xff1a;最近在南京大学召开的 Nature 原子制造国际会议上#xff0c;结识了本科毕业于南京大学、尽情在北美游历了一番后加入上海交大机械与动力工程学院的帅哥教授刘智崑。智崑给人总是一幅激情四射、敏锐激越的style#xff0c;表达的观点新潮而又接地气。他大概…编者按最近在南京大学召开的 Nature 原子制造国际会议上结识了本科毕业于南京大学、尽情在北美游历了一番后加入上海交大机械与动力工程学院的帅哥教授刘智崑。智崑给人总是一幅激情四射、敏锐激越的style表达的观点新潮而又接地气。他大概是那种致力于变革性地强化学术界和工业界之间vdW联接界面的后生代1.引言人工智能 (Artificial Intelligence, AI) 作为一种特殊的产品与商品人类对它的需求具有独特性。这不仅表现在人类对更高智能的渴望是无止境的且这种需求是极度苛刻的。人类身处相互竞争的社会中每个人都希望拥有最强的智能工具哪怕只是比其它工具强那么一点点。更特别的是人工智能 AI 具有一种“自催化”的能力。这是说作为工具它能加速自身的迭代进化很有一些人类大脑的那般模样。这种迭代表现为优势智能体呈现非线性爆发式发展并快速淘汰稍显落后的智能体。因此人们对更强人工智能的需求是永不知足的。然而是什么在支撑这种爆发式增长呢也即是说在支撑与供给一侧是什么限制了人们获得越来越好的人工智能呢其中一个重要的物理瓶颈就是下面要介绍的“存储墙困境”。读者很快就能看到要挣脱这一困境高端制造业具体而言就是围绕 AI 芯片系统的高端制造业 (统称芯片制造)需要新的制造模式、新的赛道2. AI 模型与存储墙困境2.1. AI模型面临的困境主流的 AI 大语言模型 (AI large language models, LLMs)都是基于 Transformer 架构。该架构的运作方式决定了其对硬件资源的特殊需求。观察 Transformer 的结构如图1所示我们可以看到它主要由编码器(Encoder) 和解码器 (Decoder) 组成。其核心组件包括(a) 多头自注意力机制(Multi-Head Attention) 和 (b) 前馈神经网络 (Feed-Forward Networks) [1]。在数学本质上这些组件的运行依赖于大规模的矩阵乘法运算。当模型进行推理或训练时每一个输入的 Token都需要被转换成高维向量并与模型中数以千亿计的参数权重进行复杂的矩阵运算。特别是这个“注意力机制”它要求模型在处理每一个词时都要回顾上下文中的其他词以计算相关性 (即 Query, Key, Value 的交互)。这意味着为了生成哪怕一个简单的字符硬件都需要在极短的时间内访问并搬运海量的参数数据。这种架构在算法层面解决了长距离依赖的问题赋予了 AI 理解上下文的能力。但是为了这两个目的而付出的代价是巨大的它将计算密集型任务转化为极度依赖内存带宽的数据密集型任务。这是典型的“芝麻西瓜”之矛盾。图 1. Transformer 架构作为一种基于自注意力机制的深度神经网络。它是目前大语言模型的通用底层架构 [1]。这种对资源的消耗使得 Transformer 模型始终处于一种“饥渴”状态。很多环节实际上是在白白“刷新”而耗费算力以等待数据传输完成。不过AI 学界那些既极度勤奋又绝顶聪明的人们开始试图寻找新途径。随着 Scaling Law 生效这些 AI 人们发现模型越大、参数越多则智能涌现 (intelligence emergence) 的效果越好。这直接导致了模型参数量从早期的几亿爆炸式地增长至万亿级别。而这个所谓的早期或晚期无非是几年时间而已。对于存储容量而言必须有足够大的显存来一次性地装载这些庞大的权重矩阵。否则模型根本无法运行。更为关键的是带宽。尤其是在生成式任务 (如GPT系列) 中模型是自回归的即每次生成一个新词都需要重新调用整个模型的权重进行计算。从这个意义上系统似乎并不“智能”呢至少不如自我感觉上的人脑智能_。得益于 Tensor Core 等专用计算单元的飞速发展现代硬件在处理大规模算术运算时速度已显著提升。许多计算任务仅需寥寥数个时钟周期即可完成。然而如果内存带宽不足系统运行就犹如用一根细的吸管去吸干大海无论 GPU 的计算核心 Tensor Core 有多快它们都会因为等待数据从内存传输过来而处于空闲状态。正如阿姆达尔定律 (一个关于提升程序运行速度的定量公式) 所述系统的整体速度不再取决于计算单元有多快而是受限于最慢的那个环节——也就是内存数据的传输速度。图 2. 硬件的峰值算力增长显著快于内存带宽的增长。如此形成了算力与带宽之间巨大的“剪刀差”[3]。2.2. 所谓“存储墙”如此就引出了著名的“存储墙”(Memory Wall) 危机。这一概念最早在 1995 年由 Wulf 和 McKee 提出[2]如今已成为制约 AI 发展的核心痛点。依据 Gholami 等人的研究数据[3]如图 2 所示。在过去的二十年里服务器硬件的峰值算力 (floating point operations per second, FLOPS)以每两年约 3 倍的速度狂飙累计增长了惊人的 60,000 倍。相比之下动态随机存储器 (dynamic random access memory, DRAM) 的内存带宽增长却步履蹒跚每两年仅增长 1.6 倍同期总增长约 100 倍。而互连带宽的增长更为缓慢约30倍正如老牛拉磨而旁边却是呼啸而过的京沪高铁。这种算力与带宽之间巨大的“剪刀差”导致极度不平衡的系统瓶颈。更为严峻的是AI 模型的需求增长速度远超硬件摩尔定律。Transformer模型的训练算力需求以每两年 750 倍的速度爆炸式增长模型参数量也以每两年 410 倍的速度扩张。摩尔定律所预言的、单 GPU 内存容量的增长却仅为每两年 2 倍左右。事实上这些年摩尔定律也不准了实际进展已经落后于摩尔定律的预言。这种供需关系的极度错配使得“存储墙”问题在大模型时代被急剧放大。再说一遍对于依赖自回归生成机制的 Decoder 模型 (如GPT系列)其算术强度往往较低意味着每次微小的计算都需要伴随大量的数据搬运。这种架构上的错位导致了严重的资源浪费。最新的统计数据[4] 使得问题更为严峻在当下的传统架构中高性能处理器甚至可能有超过 60 % 的时间处于等待数据的“空转”状态以等待那数据搬运过程。更糟糕的是数据搬运不仅耗时还极其耗能将数据从内存移动到计算单元的能耗往往比执行浮点运算本身的能耗高出“几个数量级”。这种因存储系统无法匹配处理器数据吞吐需求而导致的性能瓶颈不仅限制了计算速度更成为制约当前 AI 大语言模型能效比和规模拓展的关键物理障碍。2.3. HBM 的极限拉扯为克服这一困难AI 相关的学界、业界开始尝试从架构和封装技术上寻找突破口。其中最核心的解决方案便是高带宽内存 (high bandwidth memory, HBM) 技术。HBM 的设计初衷是为解决传统 DDR 内存 (double data rate memory) 带宽不足的问题。它通过硅通孔(through silicon vias packaging, TSV) 技术将多个 DDR 芯片垂直堆叠在一起如图 3 所示从而在极小的物理空间内实现巨大的存储容量和带宽。与传统的 GDDR (graphics double data rate) 显存相比HBM 采用了极宽的接口设计(通常为 1024 位)。虽然单引脚的时钟频率较低但通过并行传输海量数据系统实现了极高的总带宽。这种架构不仅显著提升了数据吞吐量还通过降低工作电压和缩短信号传输距离有效提高了能效比使其成为高性能计算和 AI 加速器的核心组件。图 3. 浅蓝色部分就是高带宽内存(HBM) [5]。为进一步满足未来万亿参数模型训练与推理对极致性能的渴望HBM 技术正经历着从架构到封装工艺的深刻变革旨在突破现有的带宽与容量[6]。如下所列乃笔者了解到的几个层次之挑战(1) 目前的 HBM3E (美光Micron公司为 AI 研发的第三代专用高端 HBM)已能实现惊人的性能。单颗芯片带宽超过1.18 TB/s相较于前代提升显著且能在8层堆叠下提供 24 GB 容量、或在 12 层堆叠下实现 36 GB 的超大容量。(2) 下一代 HBM4 (第四代 HBM)则计划引入更为激进的变革。其接口位宽预计将从目前的 1024 位翻倍至 2048 位从而在降低单引脚频率压力的同时将总带宽推升至 1.65 TB/s、甚至 2 TB/s 以上。(3) 封装技术则计划从微凸块(Micro-bump) 向混合键合(Hybrid Bonding) 跨越。传统的微凸块技术在处理更小间距 (Pitch) 和更高层数时面临电阻升高和散热困难的物理局限。而混合键合技术通过铜-铜直接连接消除了凸块间的微小缝隙不仅大幅降低垂直互连的电阻和寄生电容还有效减小了芯片的堆叠高度。这些改进使得在严格的封装厚度限制 (如 720 μm) 下可以实现 16 层、甚至更高的 DRAM 晶粒堆叠从而使得单颗HBM 容量有望达到 48 GB。(4) 最后为应对随之而来的功耗挑战未来的 HBM 基底裸片将采用先进的逻辑工艺制造。这一技术能将核心电压从 1.1 V 降低至 0.8 V 以下从而抵消带宽增加带来的功耗上升并显著改善密集堆叠带来的散热问题。然而随着 HBM 堆叠层数迈向 16 层以上硅通孔 TSV 技术在晶圆减薄良率及稳定性上面临物理极限。在此背景下单片 3D DRAM (Monolithic 3D DRAM) 作为一种颠覆性技术路径应运而生。它一改传统 DRAM 单纯依赖平面特征尺寸微缩的发展路径借鉴 3D NAND 闪存的成功理念转向垂直方向维度扩展在同一片晶圆上连续制造多层存储单元——概念上简单粗暴制造上崎岖艰难这一路径与 HBM 存在本质的区别。HBM 主要是一种系统级封装技术。它依靠微凸块和硅通孔 (TSV) 技术将多个独立的、已制造完成的 2D DRAM 裸片进行物理堆叠。这一堆叠受限于TSV 微米级尺寸限制和封装总高度限制。而单片 3D DRAM则是晶体管级的工艺集成。其中层与层之间的互连采用光刻定义的纳米级通孔彻底摒弃了庞大的TSV 和复杂的键合工艺从而实现极高的垂直互连密度和更优的寄生参数控制。读者不妨稍微去了解一下这些变革进程便能感觉到其中巨大的潜力图 4. 单片 3D DRAM (Monolithic 3D DRAM)。(a) 垂直字线(b) 垂直位线[7]。在具体的技术实现方案中水平1T1C (one-transistor, one-capacitor) 架构被寄予厚望。如图 4 所示通过垂直字线 (vertical wordline, VWL) 或位线 (vertical bitline, VBL) 的微观配置该架构在极小空间内实现了高密度存储。据文献[7] 论述以128 层堆叠为例VWL 和 VBL 配置的存储密度分别达 1.3 GB/mm² 和 1.05 GB/mm²较先进的 1b 节点 2D DRAM (约 0.455 GB/mm²) 提升约 2.3 至 2.8 倍。这种设计不仅打破了传统平面微缩的物理瓶颈还通过 CUA (computer use agent) 异构集成技术将逻辑电路置于存储阵列下方大幅缩短数据路径。相关模拟读写能耗仅为 3.37 - 3.54 pJ/bit令人印象深刻。基于该文作者的假设性设计与模拟推导显示在 Llama2-7B [a transformer-based language model developed by Meta with 7 billion parameters, trained on 2 trillion tokens with a 4,096-token context length] 训练任务中这种基于 H1T1C 的 AI 加速器较基准系统可实现超 2 倍、甚至近 2.5 倍的吞吐量提升。这一势头为未来突破“内存墙”和显存容量瓶颈提供了一条革命性的硬件演进路径。这种深刻变革必定且已经给当下芯片制造技术带来难以逾越的技术壁垒。按照那些致力于在芯片产业摸爬滚打的人们之性情寻求新的制造业举措范式也好、赛道也罢只管向前其中之一大一点即燃的赛道就是“原子级制造”。本公众号号主Ising老师最近才写过一篇科普文字《[原子级加工之团簇模式]》其中亦从不同视角提到这一主题。本文不打算将原子级制造渲染个遍只是针对 AI 的呼唤摘取两段“沧海桑田”小片段放在这里给读者茶余饭后观摩、把玩。3.原子制造之混合键合第一段小片段即混合键合 (hybrid bonding)。上文论及 HBM 封装技术时已提及混合键合这一概念。混合键合是一种革命性的无凸块 (Bumpless) 三维集成互连技术。它摒弃了传统的焊料介质直接利用介质层之间的分子引力来实现晶圆或芯片间的垂直堆叠。而电极间的连接则借助铜金属间的原子扩散来实现。此所谓“混合”之键合该技术的核心在于同时形成两种界面的键合(1) 一是介质层与介质层之间的键合。主要在室温下通过范德华力或氢键形成以提供机械支撑和电气隔离。利用极度原子级光滑的抛光平面一些研发单位可以实现大晶圆级的介质键合。(2) 二是作为电极的铜与铜之间的金属键合。借助后续热退火工艺促使铜原子扩散融合实现高效的电信号传输如图 5 所示。这种独特的“混合”连接方式极大地缩短了互连路径降低了电阻和电感寄生效应并使得互连密度能突破传统封装的极限成为高性能计算和异构集成的关键赋能技术。图 5. 混合键合过程包括了介质层与介质层之间的键合、铜- 铜金属的键合[5]。3.1. 精度、精度在这一工艺中化学机械抛光 (chemical mechanical polishing, CMP)是至关重要的一环。界面原子键合不仅需要实现表面的全局平坦化还必须精确控制铜焊盘相对于介质表面的凹陷以及整体的表面粗糙度。理想的混合键合界面要求介质表面极其平滑而铜焊盘则通常需要微小的凹陷或略微的突出以便在后续的热退火过程中利用铜的热膨胀特性实现紧密的金属键合。这是一对矛盾既要平滑又要凹陷还都要原子级这种对微观形貌的极致控制直接决定了键合的良率和电气性能构成了混合键合工艺的核心挑战。在此背景下随着对 I/O 密度的需求呈指数级增长互连间距 (pitch size) 正在从微米级向亚微米级迅速微缩。这一发展对铜凹陷的控制提出了更为严苛的“原子级”要求。相关研究数据及图表显示接触面积与间距及凹陷深度之间存在着紧密的制约关系。以当前“混合键合”的一个典型标准为例当间距为5 微米时通常可容忍约 5 nm 的铜凹陷。此时工艺窗口相对较宽。然而当间距进一步缩小铜焊盘体积随之减小热膨胀带来的突起量将不足以填补较大的凹陷。由简单的计算可推估当间距缩小 10 倍时为保证足够的接触面积铜的凹陷深度须减小约 1 个数量级。这意味着在亚微米间距下铜凹陷必须控制在很小的范围内(例如 2 nm 以内)甚至是接近原子级的高度差。为应对这一挑战制造界在混合键合的原子级制造方面已取得很大进展。以相关研发机构 IMEC 为例 [8]其发展的2 µm 间距Die-to-Wafer (D2W) 键合工艺展示了卓越的表面控制能力。即便在经历了晶圆减薄和等离子切割等极具挑战性的后续工艺步骤后IMEC 依然能通过引入创新的无机表面保护层技术成功避免铜表面的氧化和损伤将铜凹陷稳定保持在约 2 nm 水平。这一数值与初始 CMP 工艺得到的 1.5 nm 相当证明通过先进的工艺整合可以在复杂的制造流程中维持键合表面的原子级质量展示了亚微米级互连的可能。除了对铜焊盘形貌的精准把控表面粗糙度的控制同样是决定键合质量的关键因素且已达到原子级水平。最新的综述与实验数据指出[9]为确保无孔洞的高质量键合绝缘介质层(如 SiO2或 SiCN) 的表面粗糙度通常需要严格限制在 0.5 nm 以下。在一些先进制程探索中通过优化 CMP 工艺甚至可实现小于 0.2 nm 至 0.3 nm 的表面粗糙度。例如针对 SiCN 介质层的 CMP 技术在工艺优化后得到的样品其表面粗糙度可稳定在 0.4 nm左右。这种极致的平滑度对于防止界面空洞的形成、确保气密性、提高键合强度至关重要。而这种极致的平滑度令人惊叹不已毕竟一个原子也就 0.2 nm 的大小标志着半导体制造已全面进入原子级精准把控表面形貌时代。3.2. 量测、量测然而面对这种逼近原子级制造精度的挑战传统的量测手段已难以满足大规模量产的需求。传统的原子力显微镜 (atomic force microscopy, AFM) 虽然精度高但扫描速度过慢无法作为在线量测工具。另一方面光学检测手段在垂直分辨率上又往往力不从心。为解决这一瓶颈Nearfield Instruments 推出的 QUADRA 系统代表了未来的方向之一[10]。这是一种变革性的、高通量扫描探针量测系统。它创新性地采用了4 个微型AFM 探头并行工作的架构如图 6 所示。这种设计使得QUADRA 能够在保持原子级分辨率的同时成倍地提高检测速度。实验证明这一技术在用于混合键合量测 Cu 凹陷和表面粗糙度时能将量测速度提升到每小时 10 片晶圆片的水平。这一效率虽然还有些差强人意但作为半导体技术发展催生原子级制造设备的一典型案例依然具有显示度。诚然仅仅是 QUADRA 系统显然是不够的适合原子级制造的表征技术任重而道远图 6. Nearfield Instruments 的4 探头 AFM 设备 QUADRA [10]。4.原子制造之Monolithic 3D DRAM****示例第二段小片段是存储器制造。原子级制造在 AI 芯片这一领域突飞猛进之前预计须克服动态随机存取存储器 DRAM 技术向三维垂直堆叠架构演进所遭遇的巨大壁垒。事实上原子级制造技术的确也展示出不错的势头正成为实现下一代高密度存储的一大核心驱动力。以 Monolithic 3D DRAM 中电容器的集成制造为例。这一复杂过程涉及了极为精密的 12 步工艺流程 [11]如图 7 所示。制造流程始于 Si/SiGe 超晶格叠层的外延生长。随后通过对 SiGe 层的回蚀形成初始沟槽并利用原子层沉积 (atomic-layer deposition, ALD) 填充 SiO2作为支撑介质。紧接着通过原子层蚀刻 (atomic-layer etching, ALE)回蚀 SiO2并在随后的步骤中对 Si 层进行回蚀从而为电极形成创造空间。在形成 TiN 接触后工艺进入更为精细的阶段包括 SiN 的 ALD 填充与 ALE 回蚀、SiO2的再次 ALE 回蚀以及 SiN 去除这关键一步。最终在这一极度复杂的纳米结构中依次通过 ALD 技术沉积 High-k 介质层、TiN 电极层以及金属钨完成电容器的构建。整个流程包含了 6 次 ALD 沉积和 6 次各向同性选择性蚀刻。每一步都要求极高的精度以确保垂直堆叠结构的完整性与电学性能。以上制程步骤的关键在于“保形性”与“选择性”。这是 ALD 和 ALE 技术在 3D DRAM 制造中不可替代的原因。与此同时随着集成密度不断攀升器件结构内的空间越发狭小。越是这种极端的空间限制就越需要依赖 ALD 和 ALE 技术。对此感兴趣的读者可点击御览科普文《原子级加工之团簇模式》以作稍微详细一些的了解。图 7. Monolithic 3D DRAM 中电容器制备的 12 步工艺流程 [11]整个流程包含了 6 次原子层沉积和 3 次原子层刻蚀。与之相比传统的沉积与蚀刻技术在面对 3D 集成所需的侧向加工时已逼近物理极限、难以为继。此情此景原子级制造技术不可以再“犹抱琵琶半遮面”必须走到前台开始“朗朗式”的 (piano) 演出了_。原子级制造工艺的成败除了取决于技术架构外也取决于基础材料即作为器件核心骨架的 Si/SiGe 超晶格结构质量与一致性。Si/SiGe 超晶格结构是一种通过精细的外延生长工艺、在晶圆上交替堆叠 Si 与 SiGe 纳米薄膜而形成的“千层蛋糕”式多层结构。它的核心作用是利用 SiGe 层作为“牺牲层”在制造过程中将其选择性腐蚀掏空从而释放出横向悬空的Si 层作为导电通道。依据关于 200 周期 Si/SiGe 超晶格生长的研究分析[12]在 Si 衬底上构筑总厚度达 8.9 微米的超多层结构是一项极具挑战性的工程。实验数据揭示出至少如下几点对工艺精度的严苛要求(1) 为保障最终器件性能Si 沟道层的厚度必须被精确锁定在 36.7 ± 2.1 nm 之间其厚度标准差需控制在 0.77 nm 。(2) 作为牺牲层的 SiGe 层厚度则需维持在约 8.8 nm。(3) 在组分控制上尽管目标 Ge 浓度为 20 %实际生长中仍需将波动控制在 19.1 ± 1.7 % 范围内。这种优于 1 % 的浓度均匀性是确保后续高选择比蚀刻工艺窗口的关键。(4) 整个制造过程中的热预算管理亦至关重要。长时间在 675 °C 高温生长会诱发超晶格中 Ge 原子偏析导致底部界面宽度展宽至约 4.05 nm (顶部为 3.77 nm )。综上所述这种对超晶格生长过程中原子级偏差的极限控制构成了后续 12 步复杂制造工艺得以实施的基石。当然Monolithic 3D DRAM 在尺寸和材料品质上要求如此高精在立体结构搭建上要求如此纷繁复杂其制造过程对量测技术提出的更高的、颠覆性挑战迫使工业界必须放弃传统的表面计量思维。根据 ASML 的先进量测技术报告分析[13]传统的 CD-SEM 和可见光光学量测主要局限于表面成像。面对动辄数百层、厚度达数微米的 3D 堆叠结构这些技术无法触及深埋于体内的结构特征。例如侧向凹槽的深度或隐藏的空洞表征鉴定就是棘手问题。这里不仅仅是精度的提升更是探测物理模式的根本转变。为了“看穿”这些不透明的复杂结构整个芯片制造行业正在转向高能物理手段利用高着陆能量的扫描电子显微镜通过背散射电子对材料原子序数的敏感性实现深层内部结构(如金属填充或空腔)的穿透式成像和量测从而在不破坏样品的前提下精准监控侧向蚀刻的进程。同时软X 射线散射测量作为一种新兴技术利用其极短的波长 (10 – 20 nm) 穿透性(也就是 X 射线对穿越深度的敏感性)能重建复杂的 3D 轮廓和层间对准误差。此外针对晶圆键合界面也必须采用对硅透明的红外 (IR) 显微术甚至利用声波 (scanning acoustic microscopy, SAM) 来检测深处的微小缺陷。量测技术已从单纯的“表面拍照”进化为对芯片内部进行“无损断层扫描”般深度感知。**5.**结语作为这篇简短而“匆忙”的短文结尾笔者愿意和读者们一起缅怀物理学家理查德·费曼。他六十多年前曾作出那句著名的预言“There’s plenty of room at the bottom”指出了微观尺度下物理操控的无限可能。然而与费曼那种以“技术可行性”为中心的视角不同本文的鲜明特点在于确立以“需求”为中心论述“原子级制造”的必然逻辑。人类对“智能”永无止境的渴求正推动着AI 大模型参数向万亿级狂奔。这种对算力与存力的极致贪婪一方面可能让一些读者感觉是“傻大粗”式硬算使得在传统计算架构中已岌岌可危的“存储墙”危机更为严峻另一方面为了延续智能的进化半导体行业目前似乎又别无选择必须从二维平面微缩被迫转向三维空间堆叠与原子尺度重构。无论是未来 HBM 的混合键合还是单片 3D DRAM 的精密原子层沉积都不是为了探索技术的无限可能而是因为只有逼近底部的原子世界才能承载人类对人工智能日益膨胀的野心。在这样的大趋势下当前产业界最急迫的需求已不仅仅是制造工艺的突破而是发展多种、不同能力的先进量测技术。原子级精度与复杂的 3D 深孔结构给工业生产带来了前所未有的良率挑战。在实验室里造出一颗芯片是一回事在工厂里大规模、高良率地生产千万颗芯片则完全是另一回事。很显然在生产流程中显著增加量测的比重用“火眼金睛”去透视那些深埋在多层堆叠下的原子级缺陷将变成 AI 芯片制造难以绕过的万水千山。前文提到的多探针 AFM 系统与高能电子束量测代表着量测技术的范式转变之初端。只有当具备穿透力的高通量量测技术与原子级制造工艺并驾齐驱才能确保每一颗流向市场的 AI 芯片都经得起考验真正满足智能时代对算力基座的庞大需求。最后指出本文描述可能多有夸张、不周之处敬请读者谅解。成熟芯片制造就是大工程了再来个极致算力的 AI 芯片制造非极尽原子级制造之能事大概难以承载。谨以此文向“原子级制造”新赛道致敬如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…学习是一个过程只要学习就会有挑战。天道酬勤你越努力就会成为越优秀的自己。如果你能在15天内完成所有的任务那你堪称天才。然而如果你能完成 60-70% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询