曾何几时,人工智能因为算力不足进入了长达数十年的瓶颈,GPU 点燃了深度学习。在 ChatGPT 时代,AI 因为大模型再次面临算力不足的问题,这一次英伟达还有办法吗?
——编者言
3 月 21 日晚上 11 点,英伟达 CEO 黄仁勋的演讲,为 GTC 2023 拉开序幕。
ChatGPT 和 GPT-4 掀起这股生成式 AI 热潮后,为 AI 提供心脏的英伟达成了背后的大赢家,也让今年的 GTC 注定成为有史以来最受关注的一届。
黄仁勋没有让关注者失望。
「AI 的 iPhone 时刻已经到来。」70 分钟的演讲里,老黄重复了四五遍。
每次讲这句话前,他都会分享一项关于生成式 AI 的新进展——对创作、医疗、工业等领域的革命,让普通人用浏览器就能训练大模型的云服务,以及让大模型处理成本下降 10 倍的超级芯片……
「AI 的发展会超过任何人的想象。」这句话是对这场演讲最好的注脚。
01.
芯片制造炸场!将计算光刻提速40倍
三大半导体巨头站台
生成式AI时代更加需要英伟达GPU的算力。黄仁勋首先展示了英伟达加速计算能力的更新。
除了底层的芯片,英伟达早在2006年就推出了CUDA生态,以帮助用户通过简单编程来使用GPU。针对不同的应用、场景,英伟达会做相应的适配和优化,也即“加速库”。
现有的300个加速库和400个AI模型覆盖了量子计算、数据处理、机器学习等广泛的领域,已经有数千款应用被优化。
而这次的GTC上,英伟达又更新了100个场景。
这些场景包括,在CAE软件中完成流体力学(CFD)的计算、助力量子计算研究平台(cuQuantm)、优化数据库中的搜索(Spark-Rapids)、优化捡取与配送难题PDP(配送多个地点最短路程计算)等,并且已经在客户实际体验中获得了验证。
除此之外,英伟达原有多个推理SDK也有更新,包括在推理时针对指定GPU进行优化的TensorRT、用于数据中心深度学习框架加速的Triton,以及用于机器视觉的CV-CUDA、用于视频处理的VPF等。
值得一提的是,一直不掺和芯片制造的英伟达,这次通过一个特别的方式“参与”了一下。
芯片制造对精度的要求极高,一些产品的精度甚至是细菌的千分之一,与人类DNA链的尺寸相似。“光刻”是芯片制造最重要的环节之一,它指的是通过光学技术在晶圆上成像,以达到设计及性能预期。目前,它的精度已经可以达到3纳米,也即“3纳米制程”。
这样的光刻技术也需要大量的计算,而且是芯片设计和生产中消耗计算量最大的部分,每年需要百亿的CPU工作小时,芯片制造商每年的投资预计2000亿美元。
英伟达本次与台积电、ASML、Synopsys合作,推出计算光刻库——cuLitho。这个由芯片制造、光刻机、EDA和算力四个领域Top1企业合作的产品,已经筹备了整整四年,将光刻计算加速了40倍,从原来处理完一个掩膜版的2周缩短到了8小时。
台积电将在6月开始验证cuLitho。
02.
发布ChatGPT专用推理GPU
登浏览器即可访问AI超级计算机
围绕生成式AI,英伟达发布了一系列加速模型训练和推理的软硬件新品及服务。
老黄首先讲述了英伟达在生成式AI革命之初是如何进入AI领域的。
“英伟达加速计算始于DGX(AI超级计算机),这是大型语言模型实现突破背后的引擎。”他谈道,“(2016年)我亲手将全球首款DGX交给了OpenAI,自此以后,《财富》100强企业中有一半安装了DGX AI超级计算机。DGX已成为AI领域的必备工具。”
“生成式AI将重塑几乎所有行业。”老黄说,ChatGPT、Stable Diffusion、DALL-E和Midjourney唤醒了世界对生成式AI的认知。
在他看来,生成式AI是一种新型计算机、一种可以用人类语言进行编程的计算机,与个人电脑(PC)、互联网、移动设备和云类似,这种能力影响深远,每个人都可以命令计算机来解决问题,现在每个人都可以是程序员。
1、训练:生成式AI明星企业都在用,AI超级计算机已全面投产
训练方面,英伟达H100 GPU基于Hopper架构及其内置Transformer Engine,针对生成式AI、大型语言模型和推荐系统的开发、训练和部署进行了优化,利用FP8精度在大型语言模型上比上一代A100提供了快9倍的AI训练和快30倍的AI推理。
DGX H100拥有8个H100 GPU模组,在FP8精度下可提供32PetaFLOPS的算力,并提供完整的英伟达AI软件堆栈,助力简化AI开发。黄仁勋宣布,NVIDIA DGX H100 AI超级计算机已全面投入生产,很快将面向全球企业。微软宣布Azure将向其H100 AI超级计算机开放私人预览版。
黄仁勋说,云计算巨头现在正在提供英伟达H100 GPU,生成式AI领域的多家明星企业都在用H100加速工作。
比如,OpenAI用H100的上一代A100训练和运行AI聊天机器人ChatGPT,并将在微软Azure超级计算机上使用H100;AI文生图明星创企Stability.ai是AWS上的H100早期访问客户。
最近刚推出开源大模型的社交软件巨头Meta开发了基于Hopper架构的AI超级计算机Grand Teton系统。相比其前代Zion,该系统的算力大幅提升,可同时支持推荐模型和内容理解的训练和推理。
英伟达与其主要合作伙伴宣布推出强大的GPU NVIDIA H100 Tensor Core GPU新产品和服务,以满足生成式AI训练和推理需求。
AWS宣布即将推出的EC2超级集群(EC2 P5实例)可扩展至20000个互连的H100。Oracle Cloud Infrastructure(OCI)宣布限量推出采用H100的全新OCI Compute裸金属GPU实例。
为企业和开发者提供多模态视频理解的平台Twelve Labs计划在OCI Supercluster上使用H100实例来即时、智能和容易搜索视频。
2、推理:发布3款GPU、3类云服务
推理方面,英伟达推出全新GPU推理平台:4种配置(L4 Tensor Core GPU、L40 GPU、H100 NVL GPU、Grace Hopper超级芯片)、一个体系架构、一个软件栈,分别用于加速AI视频、图像生成、大型语言模型部署和推荐系统。
(1)L4:针对AI视频设计的通用GPU,可提供比CPU高120倍的AI视频性能,能效提高99%;优化了视频解码与转码、视频内容审核、视频通话等功能,如背景替换、重新打光、眼神交流、转录和实时翻译等。一台8-GPU L4服务器将取代100多台用于处理AI视频的双插槽CPU服务器。
(2)L40:用于图像生成,针对图形和AI支持的2D、视频和3D图像生成进行了优化,推理性能是英伟达最受欢迎的云推理GPU T4的10倍。
(3)H100 NVL:针对ChatGPT等大型语言模型的大规模部署,配备双GPU NVLink,将两张拥有94GB HBM3显存的PCIe H100 GPU拼接在一起,可处理拥有1750亿参数的GPT-3大模型,同时支持商用PCIe服务器轻松扩展。
老黄说,目前在云上唯一可以实际处理ChatGPT的GPU是HGX A100。与适用于GPT-3处理的HGX A100相比,一台搭载4对H100及双GPU NVLink的标准服务器的速度要快10倍,H100可将大型语言模型的处理成本降低一个数量级。
(4)Grace Hopper超级芯片:适用于推荐系统和大型语言模型的AI数据库,图推荐模型、向量数据库和图神经网络的理想选择,通过900GB/s的高速一致性芯片到芯片接口连接英伟达Grace CPU和Hopper GPU。
谷歌云是第一个向客户提供英伟达L4推理GPU的云服务提供商。谷歌还将L4集成到其Vertex AI模型商店中。
3、云服务:登浏览器即可访问AI超级计算机
英伟达推出了一项名为DGX Cloud的AI超级计算服务,与微软Azure、谷歌OCP、Oracle OCI合作,通过一个Web浏览器就能访问,以便企业为生成式AI和其他开创性应用训练先进的模型。
DGX Cloud实例的起价为每个实例每月36999美元。其每个实例都具有8个NVIDIA H100或A100 80GB Tensor Core GPU,每个节点共有640GB的GPU内存。DGX Cloud提供了专用的NVIDIA DGX AI超级计算集群,并配备了NVIDIA AI软件。
生成式AI时代更加需要英伟达GPU的算力。黄仁勋首先展示了英伟达加速计算能力的更新。
除了底层的芯片,英伟达早在2006年就推出了CUDA生态,以帮助用户通过简单编程来使用GPU。针对不同的应用、场景,英伟达会做相应的适配和优化,也即“加速库”。
现有的300个加速库和400个AI模型覆盖了量子计算、数据处理、机器学习等广泛的领域,已经有数千款应用被优化。
而这次的GTC上,英伟达又更新了100个场景。
这些场景包括,在CAE软件中完成流体力学(CFD)的计算、助力量子计算研究平台(cuQuantm)、优化数据库中的搜索(Spark-Rapids)、优化捡取与配送难题PDP(配送多个地点最短路程计算)等,并且已经在客户实际体验中获得了验证。
除此之外,英伟达原有多个推理SDK也有更新,包括在推理时针对指定GPU进行优化的TensorRT、用于数据中心深度学习框架加速的Triton,以及用于机器视觉的CV-CUDA、用于视频处理的VPF等。
英伟达的100个加速库场景(部分)
值得一提的是,一直不掺和芯片制造的英伟达,这次通过一个特别的方式“参与”了一下。
芯片制造对精度的要求极高,一些产品的精度甚至是细菌的千分之一,与人类DNA链的尺寸相似。“光刻”是芯片制造最重要的环节之一,它指的是通过光学技术在晶圆上成像,以达到设计及性能预期。目前,它的精度已经可以达到3纳米,也即“3纳米制程”。
这样的光刻技术也需要大量的计算,而且是芯片设计和生产中消耗计算量最大的部分,每年需要百亿的CPU工作小时,芯片制造商每年的投资预计2000亿美元。
英伟达本次与台积电、ASML、Synopsys合作,推出计算光刻库——cuLitho。这个由芯片制造、光刻机、EDA和算力四个领域Top1企业合作的产品,已经筹备了整整四年,将光刻计算加速了40倍,从原来处理完一个掩膜版的2周缩短到了8小时。
台积电将在6月开始验证cuLitho。
直接在浏览器上或通过API,均可访问这些运行在NVIDIA DGX Cloud上的云服务。NeMo、BioNeMo云服务已开放早期访问,Picasso云服务正在私人预览中。
英伟达也宣布了一系列跟生成式AI相关的合作进展,包括与Adobe合作开发新一代先进的生成式AI模型;与Getty Images合作训练负责任的文生图、文本转视频基础模型;与Shutterstock合作,训练从简单文本提示中创建生成式3D模型,将创作时间从几小时减少到几分钟。
此外,英伟达与三菱联合发布了将用于加速药物研发的日本第一台生成式AI超级计算机Tokyo-1。通过在Tokyo-1上使用NVIDIA BioNeMo软件,研究人员能运行高达数十亿参数的先进AI模型,包括蛋白质结构预测、小分子生成、姿态估计等。
03.
BlueField-3 DPU已投产
打造全球首个GPU加速量子计算系统
数据处理单元(DPU)方面,黄仁勋宣布英伟达BlueField-3 DPU已投入生产,并被百度、CoreWeave、京东、微软Azure、Oracle OCI、腾讯游戏等领先的云服务提供商所采用,以加速其云计算平台。
面向量子计算,要从量子噪声和退相干中恢复数据,需要对大量量子比特进行纠错。对此,英伟达与Quantum Machines合作推出了一个量子控制链路,它可将英伟达GPU连接到量子计算机,以极快的速度进行纠错。
双方合作研发的全球首个GPU加速量子计算系统NVIDIA DGX Quantum,将强大的加速计算平台(由NVIDIA Grace Hopper超级芯片和CUDA量子开源编程模型支持)与全球最先进的量子控制平台OPX结合在一起,使研究人员能够构建强大的应用,将量子计算与最先进的经典计算结合起来,实现校准、控制、量子纠错和混合算法。
NVIDIA DGX Quantum的核心是NVIDIA Grace Hopper系统,通过PCIe连接到通用量子控制系统Quantum Machines OPX+,实现QPU和量子之间的亚微秒延迟处理单元(QPU)。
DGX Quantum还为开发人员配备了一款强大的混合GPU-Quantum编程模型NVIDIA CUDA Quantum,可以在一个系统中集成QPU、GPU、CPU并进行编程。多家量子硬件公司将CUDA Quantum集成到他们的平台中。
美国通信巨头AT&T宣布与英伟达合作,使用英伟达全套AI平台改进运营并提高可持续性。AT&T将使用英伟达AI平台进行数据处理、优化服务排队、创建员工支持和培训的对话式AI数字化形象。
04.
推出新一代元宇宙服务器
引入生成式AI和模拟仿真更新
面向元宇宙领域,英伟达推出了第三代OVX计算系统和新一代工作站,为基于NVIDIA Omniverse Enterprise的大规模数字孪生提供动力。
第三代OVX服务器通过组合双CPU平台、BlueField-3 DPU、L40 GPU、两个ConnectX-7 SmartNIC和NVIDIA Spectrum以太网平台,提供了突破性的图形和AI性能,可加速大规模数字孪生模拟等应用,进而提高运营效率和预测性规划功能。
企业可以利用OVX性能在可视化、虚拟工作站和数据中心处理工作流程等方面进行协作。
此外,新一代NVIDIA RTX工作站RTX 4000 SFF Ada Generation采用英伟达Ada Lovelace GPU、ConnectX-6 Dx SmartNIC和英特尔至强处理器。最新发布的RTX 5000 Ada一代笔记本电脑GPU使专业人士能随时随地访问Omniverse和工业元宇宙工作负载。
黄仁勋还宣布了英伟达用于构建和操作元宇宙应用的平台NVIDIA Omniverse的相关更新,增加了一系列生成式AI、模拟仿真相关功能,让开发者能够更轻松地部署工业元宇宙应用。
平台即服务(PaaS)NVIDIA Omniverse Cloud现已面向特定企业开放,使企业能够在其核心产品和业务流程中统一数字化。
“从大型物理设施到手持消费品,每一个人造物体都有一天会拥有一个数字孪生,用来建造、操作和优化物体。”黄仁勋说,“Omniverse Cloud是用于工业数字化的从数字到物理的操作系统,它的出现正好赶上了正在建设的价值数万亿美元的新电动汽车、电池和芯片工厂。”
英伟达选择微软Azure作为Omniverse Cloud的首个云服务提供商。由NVIDIA OVX计算系统提供支持的Omniverse Cloud将于今年下半年与微软Azure一起推出。企业可访问Omniverse软件应用程序的全堆栈套件和NVIDIA OVX基础设施,并享有Azure云服务的规模和安全性。
Azure上Omniverse Cloud的新订阅服务使汽车团队可轻松实现工作流程的数字化,无论是连接3D设计工具以加速汽车开发,还是构建汽车的数字孪生工厂或运行闭环模拟来测试车辆性能。
老黄在演讲期间分享了一个视频,展示亚马逊如何用英伟达Omniverse平台构建完全逼真的数字孪生机器人仓库,以节省时间和金钱。
英伟达与宝马集团宣布扩大合作,为汽车制造商开设了第一个完全虚拟工厂。宝马集团将英伟达Omniverse平台用在其全球生产网络中构建和运行工业元宇宙应用。
05.
“工业元宇宙”Omniverse
本届GTC的最后一个环节,是英伟达的“工业元宇宙”Omniverse。
Omniverse是一个工业数字化平台,最早在2019年推出,旨在搭建数字化和物理世界之间的桥梁,它让各个行业在投入实际生产之前先以数字化方式设计、建造、运营和优化物理产品和工厂。
Omniverse的用途之一是建立虚拟工厂,在那里所有的机器都是数字化的。
黄仁勋介绍道,半导体行业正在投资5000亿美元建造84个新晶圆厂,2030年汽车制造商将建造300家工厂来生产2亿辆电动汽车,电池制造商正在建造100多家特大型工厂,物流行业在全球数十亿平方英尺的仓库之间辗转运输货物。
虚拟工厂可以为全球工厂节省数十亿美元,亚马逊机器人是英伟达omniverse的代表客户之一。本次GTC,omniverse在几十个领域迎来了更新。
目前,已经有近30万创作者和设计师下载了omniverse。它不是一个工具,而是一个USD网络和共享数据库,也是一种与各行各业使用的设计工具相连的基础结构,可以连接、合成和模拟使用行业领先工具创建的3D资产。
Omniverse的发展壮大依赖于开放的生态系统。Omniverse目前已经连接到Bentley Systems LumentRT、西门子、NX、罗克韦尔、Unity等,汽车行业中沃尔沃、通用、梅德赛斯-奔驰、捷豹路虎、宝马、路特斯、丰田、Lucid等汽车制造商也在使用Omniverse开展工作。其中,宝马汽车基于Omniverse在匈牙利建造了第一座数字孪生工厂,将在2025年开业。
今天, 英伟达还宣布了专门为运行Omniverse而设计的系统。第一款是由英伟达Ada RTX GPU和英特尔最新CPU驱动的新一代工作站,将从三月份开始在Boxx、戴尔、惠普和联想上市;第二个是针对Omniverse优化的新型Nvidia ovx服务器,将由戴尔、惠普、Quantn、技嘉、联想和SuperMicro提供。
最后,英伟达还推出Omniverse Cloud的云服务,支持即时、安全地访问托管的Omniverse Cloud API。英伟达正在与微软合作,将Omniverse云服务引入全球各个行业。同时,英伟达正在将Omniverse云连接到Microsoft 365生产力套件,包括Teams、OneDrive、SharePoint和Azure IoT数字孪生服务。
06.
每月 3.7 万美元,网页上训练自己的 ChatGPT
微软斥资数亿美元购买了数万块 A100 构建了 GPT 专用超算,你现在可能会想要租用 OpenAI 和微软训练 ChatGPT 和必应搜索相同的 GPU 来训练自己的大模型。
英伟达提出的 DGX Cloud 提供了专用的 NVIDIA DGX AI 超级计算集群,搭配 NVIDIA AI 软件,该服务使每个企业都可以使用简单的网络浏览器访问 AI 超算,消除了获取、部署和管理本地基础设施的复杂性。
据介绍,每个 DGX Cloud 实例都具有八个 H100 或 A100 80GB Tensor Core GPU,每个节点共有 640GB GPU 内存。使用 NVIDIA Networking 构建的高性能、低延迟结构确保工作负载可以跨互连系统集群扩展,允许多个实例充当一个巨大的 GPU,以满足高级 AI 训练的性能要求。
现在,企业可以按月租用 DGX Cloud 集群,快速轻松地扩展大型多节点训练工作负载的开发,而无需等待通常需求量很大的加速计算资源。
而月租的价格,据黄仁勋介绍,每个实例每月 36999 美元起。
「我们正处于人工智能的 iPhone 时刻,」黄仁勋表示:「初创公司竞相打造出了颠覆性产品和商业模式,而现有企业也在寻求回应。DGX Cloud 让客户能够即时访问全球规模的云中的 NVIDIA AI 超级计算。」
为了帮助企业迎接生成式 AI 的浪潮,英伟达同时宣布了一系列云服务,让企业能够构建、改进定制的大型语言模型和生成式 AI 模型。
现在,人们可以使用 NVIDIA NeMo 语言服务和 NVIDIA Picasso 图像、视频和 3D 服务来构建专有的、特定领域的生成式 AI 应用程序,用于智能对话和客户支持、专业内容创建、数字模拟等。另外,英伟达还宣布了 NVIDIA BioNeMo 生物学云服务的新模型。
“生成式 AI 是一种新型计算机,可以用人类的自然语言进行编程。这种能力影响深远 —— 每个人都可以命令计算机来解决问题,而此前不久,这还是程序员们的专利”黄仁勋说道。
从今天的发布内容看来,英伟达不仅正在针对科技公司的 AI 负载不断改进硬件设计,也在提出新的商业模式。在一些人看来,英伟达是想做”AI 领域的台积电“:像晶圆厂一样提供先进生产力代工服务,帮助其他公司在其之上训练各自特定场景的 AI 算法。
07.
结语:生成式AI引发了全球企业紧迫感
“生成式AI正在推动AI的快速应用,并重塑无数行业。”老黄说,“我们正处于AI的「iPhone时刻」,初创公司竞相构建具有颠覆性的产品和商业模式,老牌公司则在寻求应对之策,生成式AI引发了全球企业制定AI战略的紧迫感。”
从今日英伟达的一系列软硬件发布,可以看到英伟达对先进AI计算的支撑已经覆盖到从GPU、DPU等硬件到帮助企业加速构建定制生成式AI模型的云服务,进而推动释放人类的创造力。
这已经不是老黄第一次“跳预言家”了。英伟达的加速计算产品可以说是与AI产业的发展共生共荣。英伟达不断为更大规模的AI模型训练提供更强大的算力基座,对AI训练和推理的前沿发展起到了重要推动力,蓬勃而生的AI热潮又为英伟达带来了更广阔的市场和机遇。
如今,生成式AI所展现出的商用前景几乎激励着每个行业重新设想其商业战略和实现这些战略所需的技术。英伟达正与其合作伙伴迅速行动,为AI应用提供更强大的计算平台,让更多人从生成式AI等前沿应用的变革性力量中受益。
本文综合整理自网络,仅供阅读参考