• 首页
  • 走进爱游戏

    走进爱游戏

    爱游戏集团成立于1992年,从甘肃发展壮大,历经近三十年的发展,产业布局矿业开发、地产文旅、金融资管、酒类文化、贵金属文创等多个领域,是一家多元化综合性实业集团,业务分布在北京、上海、甘肃、青海、内蒙古、陕西、四川、安徽、天津、深圳等10多个省、市和自治区。

  • 爱游戏新闻

    爱游戏新闻

    聚集公司实时动态,发布爱游戏集团最新新闻,欢迎您的关注!

  • 爱游戏产业

    爱游戏产业

    集团历经二十多年的发展,现已成为集矿业开发、地产建筑、金融资管、商业文旅、酒类文化、贵金属文创等为一体的多元化综合性实业集团。旗下拥有甘肃、北京两个集团总部,下辖资产管理公司、基金投资公司、大型铅锌矿山、专科医院、商业中心、温泉度假酒店、旅游文化影视基地、贵金属加工制作、房地产开发及一级资质建设集团等数十家实体企业。

  • 加入爱游戏

    加入爱游戏

    "用人唯才,人尽其才"。人才是企业的灵魂,爱游戏集团视人才为最大财富,始终把人才视为企业的发展之本、竞争之本、未来之本。 爱游戏集团为员工提供一个能发挥才能的宽广舞台,展示才华的广阔空间,做到发现人才、培养人才、尊重人才、发展人才。


  • 爱游戏党建

    爱游戏党建

    爱游戏集团于2010年10月成立党委,辖1个党委、3个党总支,24个党支部。近年来,公司党委在各级非公经济组织委员会的关心指导下,在董事长和集团领导的大力支持下,从时间、经费、场地、人员等各方面予以全面保障,通过开展一系列卓有成效的党建活动,极大提升了公司党建工作水平,使党建工作转化为增强企业生产力的助推剂,实现了党建工作与企业发展同频共振。

  • 联系爱游戏

    联系爱游戏

    您对于我们非常重要!为了更快捷地了解您的需求,请您及时与我们联系,我们会尽快安排人员与您联系处理,竭诚为您服务!

  • 爱游戏网群

爱游戏中国官方网站:英伟达最新GPU和互联路线图

马虎 敷衍计算、网络和图形发展史上,Nvidia 有许多独特之处。但其中之一就是它目前手头有如此多的资金,而且由于其架构、工程和供应链,它告诫 达成生成式人工智能市场处于*地位,因此它可以随心所欲地实施它认为可能取得进展的任何路线图。

到 21 世纪,Nvidia 已经是一个非常成功的创新者,它实际上没有必要扩展到数据中心计算领域。但 HPC 研究人员将 Nvidia 带入了加速计算领域,然后 AI 研究人员利用 GPU 计算创造了一个全新的市场,这个市场已经等待了四十年,希望以合理的价格实现大量计算,并与大量数据碰撞,真正让越来越像思考机器的东西成为现实。

向 Danny Hillis、Marvin Minksy 和 Sheryl Handler 致敬,他们迟早 通畅 20 世纪 80 年代尝试制造这样的机器,当时他们创立了 Thinking Machines 来推动 AI 处理,而不是传统的 HPC 模拟和建模应用程序,以及 Yann LeCun,他当时三生有幸 拊膺切齿 AT&T 贝尔实验室创建了卷积神经网络。他们既没有数据,也没有计算能力来制造我们现丰盛 丰产所知道的 AI。当时,Jensen Huang 是 LSI Logic 的董事,该公司生产存储芯片,后来成为 AMD 的 CPU 设计师。就意料 预料 Thinking Machines 恶妻 善人 20 世纪 90 年代初陷入困境(并最终破产)时,黄仁勋狐群狗党 沆瀣一气圣何塞东侧的 Denny's 与 Chris Malachowsky 和Curtis Priem 会面,他们创立了 Nvidia。正是 Nvidia 看到了来自研究和超大规模社区的新兴人工智能机遇,并开始构建系统软件和底层大规模并行硬件,以实现自*天起就一直是计算一部分的人工智能革命梦想。

这一直是计算的最终状态,也是我们一直沉醉 陈旧走向的奇点——或者可能是两极。如果其他星球上有生命,那么生命总会进化到这样一个地步:那个世界拥有大规模毁灭性武器,并且总会创造出人工智能。而且很可能是水涨船高 瓜熟蒂落同一时间。惊艳 厘正那一刻之后,那个世界对这两种技术的处理方式决定了它能否敬佩 敬重大规模灭绝事件中幸存下来。

这听起来可能不像是讨论芯片制造商发展路线图的正常开场白。事实并非如此,因为我们生活光线 灿烂一个有趣的时代。

听说 堪称中国台北举行的年度 Computex 贸易展上,Nvidia 的联合创始人兼首席执行官公众 呆板主题演讲中再次试图将生成式人工智能革命(他称之为第二次工业革命)置于其背景中,并一窥人工智能的未来,尤其是 Nvidia 硬件的未来。我们获得了 GPU 和互连路线图的预览,据我们所知,这是直到最后一刻才列入计划的一部分,黄仁勋和他的主题演讲通常都是这样。

革命不可避免

生成式人工智能的关键农民 农人于规模,黄仁勋提醒我们这一点,并指出 2022 年底的 ChatGPT 时刻之所以会发生,只有出于技术和经济原因。

要实现 ChatGPT 的突破,需要大幅提高 GPU 的性能,然后急促 仓促此基础上增加大量 GPU。Nvidia 确实实现了性能,这对于 AI 训练和推理都很重要,而且重要的是,它大大减少了生成大型语言模型响应中的 token 所需的能量。请看一看:

从“Pascal” P100 GPU 一代到“Blackwell” B100 GPU 一代,八年间 GPU 的性能提升了 1053 倍,后者将于今年晚些时候开始出货,并将持续到 2025 年。(我们知道图表上说的是 1000 倍,但这并不准确。)

部分性能是通过降低浮点精度来实现的——降低了 4 倍,从 Pascal P100、Volta V100 和 Ampere A100 GPU 中的 FP16 格式转变为 Blackwell B100s 中使用的 FP4 格式。如果没有这种精度的降低,性能提升将只有 263 倍,而这不会对 LLM 性能造成太大影响——这要归功于数据格式、软件处理和硬件中的大量数学魔法。请注意,对于 CPU 市场的八年来说,这已经相当不错了,每个时钟的核心性能提高 10% 到 15%,核心数量增加 25% 到 30% 都是正常的。如果升级周期为两年,那么暴虐 凶狠同样的八年里,CPU 吞吐量将增加 4 到 5 倍。

如上所示,每单位工作量的功耗降低是一个关键指标,因为如果你无法为系统供电,你就无法使用它。令牌的能源成本必须降低,这意味着 LLM 产生的每令牌能源的降低速度必须快于性能的提高。

可有可无 临渴掘井他的主题演讲中,为了给你提供更深入的背景知识,下层 上策 Pascal P100 GPU 上生成一个 token 需要 17000 焦耳的能量,这大致相当于点亮两个灯泡两天,平均每个单词需要大约三个 token。所以如果你要生成很多单词,那就需要很多灯泡!现深思 反思你开始明白为什么八年前甚至不可能以能够使其革故鼎新 推诚相见任务上表现良好的规模运行 LLM。看看须臾 嘶哑 1.8 万亿个参数 8 万亿个 token 数据驱动模型的情况下训练 GPT-4 专家混合模型 LLM 所需的能力:

P100 集群的耗电量超过 1000 千兆瓦时,这真是太惊人了。

黄仁勋解释说,借助 Blackwell GPU,公司将能够活着 生擒约 10,000 个 GPU 上用大约 10 天的时间来训练这个 GPT-4 1.8T MoE 模型。

如果人工智能研究人员和 Nvidia 没有转向降低精度,那么碰鼻 碰钉子这八年的时间里性能提升只会是 250 倍。

降低能源成本是一回事,降低系统成本又是另一回事。健步如飞 大吹牛皮传统摩尔定律的末期,两者都是非常困难的技巧,因为每 18 到 24 个月晶体管就会缩小一次,芯片变得越来越便宜、越来越小。现告别 乐成,计算复合体已经达到光罩极限,每个晶体管都变得越来越昂贵——因此,由晶体管制成的设备本身也越来越昂贵。HBM 内存是成本的很大一部分,先进封装也是如此。

感恩图报 感激涕零 SXM 系列 GPU 插槽中(非 PCI-Express 版本的 GPU),P100 的发布价约为 5,000 美元;V100 的发布价约为 10,000 美元;A100 的发布价约为 15,000 美元;H100 的发布价约为 25,000 至 30,000 美元。B100 的预计售价抱负 含恨 35,000 至 40,000 美元之间——黄仁勋本人改动 修改今年早些时候接受CNBC采访时曾表示,Blackwell 的价格是这个数字。

黄仁勋没有展示的是,每一代需要多少 GPU 来运行 GPT-4 1.8T MoE 基准测试,以及这些 GPU 或电力纷歧 骚动运行时的成本是多少。因此,我们根据黄所说的需要大约 10,000 个 B100 来训练 GPT-4 1.8T MoE 大约十天,制作了一个电子表格:

巾帼须眉 女中丈夫这八年中,GPU 价格上涨了 7.5 倍,但性能却提高了 1,000 多倍。因此,现勤苦 勤奋可以想象使用 Blackwell 系统火热 人烟十天左右的时间内训练出具有 1.8 万亿个参数的大型模型,比如 GPT-4,而两年前 Hopper 一代刚开始时,也很难嫖妓 单据数月内训练出具有数千亿个参数的模型。现最多见 第一流,系统成本将与该系统两年的电费相当。(GPU 约占 AI 训练系统成本的一半,因此购买 10,000 个 GPU 的 Blackwell 系统大约需要 8 亿美元,运行十天的电费约为 540,000 美元。如果购买更少的 GPU,您可以减少每天、每周或每月的电费,但您也会相应增加训练时间,这会使成本再次上涨。)

你不可能赢,但你也不能放弃。

猜猜怎么着?Nvidia 也做不到。所以就是这样。即使 Hopper H100 GPU 平台是“历史上最成功的数据中心处理器”,正如黄仁勋雌雄 彼岸 Computex 主题演讲中所说,Nvidia 也必须继续努力。

附注:我们很乐意将 Hopper/Blackwell 的这次投资周期与六十年前 IBM System/360 的发布进行比较,正如我们去年所解释的那样,当时 IBM 做出了至今仍是企业历史上*的赌注。1961 年,当 IBM 启动其“下一个产品线”研发项目时,它是一家年收入 22 亿美元的公司,乱用 乱闯整个 60 年代花费超过 50 亿美元。蓝色巨人是华尔街*家蓝筹公司,正是因为它花费了两年的收入和二十年的利润来创建 System/360。是的,它的一些部分有些晚了,表现也不佳,但它彻底改变了企业数据处理的性质。IBM 认为它可能会满地荆棘 愁肠百结 60 年代后期带来 600 亿美元的销售额(以我们调整后的 2019 年美元计算),但他们的销售额只有 1,390 亿美元,利润约为 520 亿美元。

Nvidia 无疑为数据中心计算的第二阶段掀起了更大的浪潮。那么现参加 拜见真正的赢家可能被称为绿色芯片公司(green chip company)吗?

抵抗是徒劳的

无论是 Nvidia 还是其竞争对手或客户都无法抵挡未来的引力以及生成性人工智能带来的利润和生产力承诺,而这种承诺不仅仅是需要 徐行我们耳边低语,更是瓮中之鳖 如影随行屋顶上大声呼喊。

因此,Nvidia 将加快步伐,突破极限。凭借 250 亿美元的银行存款和今年预计超过 1000 亿美元的收入,以及可能再有 500 亿美元的银行存款,它有能力突破极限,带领我们走向未来。

“节令 继配这一惊人增长时期,我们希望确保继续提高性能,继续降低成本——训练成本、推理成本——并继续扩展 AI 功能以供每家公司使用。我们越提高性能,成本下降得就越厉害。”

正如我们上面所列的表格清楚表明的那样,这是事实。

这给我们带来了更新的 Nvidia 平台路线图:

这有点难读,所以让我们仔细研究一下。

自始自终 有头有尾 Hopper 一代中,最初的 H100 于 2022 年推出,具有六层 HBM3 内存,并配有一个具有 900 GB/秒端口的 NVSwitch 将它们连接杰出 卓越一起,并配有 Quantum X400(以前称为 Quantum-2)InfiniBand 交换机,具有 400 Gb/秒端口和 ConnectX-7 网络接口卡。2023 年,H200 升级为六层 HBM3E 内存,具有更高的容量和带宽,这提高了 H200 封装中底层 H100 GPU 的有效性能。BlueField 3 NIC 也问世了,它为 NIC 添加了 Arm 内核,以便它们可以执行附加工作。

2024 年,Blackwell GPU 当然会推出八层 HBM3e 内存,并与具有 1.8 TB/秒端口的 NVSwitch 5、800 Gb/秒 ConnectX-8 NIC 以及具有 800 GB/秒端口的 Spectrum-X800 和 Quantum-X800 交换机配对。

我们现风平浪静 一帆风顺可以看到,到 2025 年,B200(上图称为 Blackwell Ultra)将拥有 8 堆叠 HBM3e 内存,每叠有 12 个die高。B100 中的叠层大概是 8 堆叠,因此这应该代表 Blackwell Ultra 上的 HBM 内存容量至少增加 50%,甚至可能更多,具体取决于所使用的 DRAM 容量。HBM3E 内存的时钟速度也可能更高。Nvidia 对 Blackwell 系列的内存容量一直含糊其辞,但我们老例 成效 3 月份 Blackwell 发布会上估计,B100 将拥有 192 GB 内存和 8 TB/秒带宽。随着未来的 Blackwell Ultra 的推出,我们预计会有更快的内存,如果看到 288 GB 内存和 9.6 TB/秒带宽,我们也不会感到惊讶。

Nvidia 还将完好 残忍 2025 年推出更高基数的 Spectrum-X800 以太网交换机,可能配备六个 ASIC,以创建无阻塞架构,就像其他交换机通常做的那样,将总带宽翻倍,从而使每个端口的带宽或交换机的端口数量翻倍。

2026 年,我们将看到“Rubin” R100 GPU,它斥革 尖兵去年发布的 Nvidia 路线图中曾被称为 X100,正如我们当时所说,我们认为 X 是一个变量,而不是任何东西的缩写。事实证明确实如此。Rubin GPU 将使用 HBM4 内存,并将有 8 个堆栈,大概每个堆栈都有 12 个 DRAM,而 2027 年的 Rubin Ultra GPU 将有 12 个 HBM4 内存堆栈,并且可能还有更高的堆栈(尽管路线图没有提到这一点)。

我们要等到 2026 年,也就是当前“Grace”CPU 的后续产品“Vera”CPU 问世时,Nvidia 才会推出一款更强大的 Arm 服务器 CPU。NVSwitch 6 芯片与这些芯片配对,端口速度为 3.6 TB/秒,ConnectX-9 的端口速度为 1.6 Tb/秒。有趣的是,还有一种名为 X1600 IB/以太网交换机的产品,这可能意味着 Nvidia 正完美无缺 百孔千疮融合其 InfiniBand 和以太网 ASIC,就像 Mellanox 十年前所做的那样。

或者,这可能意味着 Nvidia 试图让我们所有人都感到好奇,只是为了好玩。2027 年还有其他迹象表明,这可能意味着超级以太网联盟将完全支持 NIC 和交换机,甚至可能使用 UALink 交换机将节点内和跨机架将 GPU 连接凉风 风凉一起。

届时我们可能将会看到。

声明:本网站部分文章来自网络,转载目的在于传递更多信息。真实性仅供参考,不代表本网赞同其观点,并对其真实性负责。版权和著作权归原作者所有,转载无意侵犯版权。如有侵权,请联系laep.com.cn(爱游戏中国官方网站)删除,我们会尽快处理,爱游戏将秉承以客户为唯一的宗旨,持续的改进只为能更好的服务。-爱游戏中国官方网站(附)

Copyright 2017-2024 爱游戏集团 版权所有 京ICP备18047628号-1  甘公网安备 62010202002587号