Amazon EC2 Inf2实例正式可用 助力更低成本、更高性能的生成式AI推理-环球简讯
深度学习(DL)的创新,特别是大语言模型(LLM)的快速发展,已经席卷了整个行业。深度学习模型的参数已从数百万增加到数十亿,为我们呈现了越来越多激动人心的新能力。它们正在催生新的应用,如生成式AI或医疗保健和生命科学的高级研究。亚马逊云科技一直在芯片、服务器、数据中心互连和软件服务等多个方面创新,加速深度学习工作负载的大规模应用。
亚马逊云科技在2022 re:Invent 全球大会上,以其最新的自研机器学习推理芯片Amazon Inferentia2为基础,发布了Amazon EC2 Inf2系列实例的预览版。Amazon EC2 Inf2类型实例专门针对全球大规模运行高性能深度学习推理应用程序,为部署在EC2上的生成式AI应用提供最佳性价比,其中包含GPT-J或开放式预训练Transformer(OPT)语言模型。
(资料图片)
现在,亚马逊云科技宣布AmazonEC2 Inf2实例正式可用!
Inf2实例是AmazonEC2上首个推理优化的实例,支持可扩展的分布式推理,可实现多个inferentia2芯片之间的超高速连接。用户可以在Inf2实例中跨多个芯片高效部署具有数千亿个参数的模型。与AmazonEC2 Inf1实例相比,Inf2实例的吞吐量提高4倍,延迟降低10倍。
新Inf2实例的亮点
Inf2实例目前有四种可用实例类型,最高扩展至12个Amazon Inferentia2芯片和192个vCPU配置。在BF16或FP16数据类型下,它们能够提供2.3 petaFLOPS的综合计算能力,并具有芯片间超高速NeuronLink互连的功能。NeuronLink可在多个Inferentia2芯片上扩展大模型,避免通信瓶颈,实现更高性能的推理。
每个Inferentia2芯片内有32GB的高带宽内存(HBM),最高配置的Inf2实例可提供高达384GB的共享加速器内存,总内存带宽为9.8TB/s。对于需要大内存支持的的大型语言模型而言,这种带宽对于支持模型推理尤为重要。
基于专门为深度学习工作负载而构建的Amazon Inferentia2芯片的Amazon EC2 Inf2,相比同类实例,单位功率性能高出了50%。
AmazonInferentia2的创新之处
与亚马逊自研机器学习训练芯片Amazon Trainium类似,每个Amazon Inferentia2芯片都配有两个经过优化的NeuronCore-v2引擎、高带宽内存(HBM)堆栈和专用的集体计算引擎,以便在执行多加速器推理时实现计算与通信的并行。
每个NeuronCore-v2都有专为深度学习算法构建的标量、向量和张量三种引擎,其中张量引擎针对矩阵运算进行了优化;标量引擎针对ReLU(修正线性单元)函数等元素性操作进行了优化;向量引擎针对批处理规范化或池化等非元素向量运算进行了优化。
以下是AmazonInferentia2芯片和服务器硬件其他创新总结:
数据类型——Amazon Inferentia2 支持多种数据类型,包括FP32、TF32、BF16、FP16和UINT8,用户可以为工作负载选择最合适的数据类型。它还支持新的可配置FP8(cFP8)数据类型,该数据类型特别适用于大模型,因为它减少了模型的内存占用和I/O要求。
动态执行和动态输入形状——Amazon Inferentia2 具有支持动态执行的嵌入式通用数字信号处理器(DSP),因此无需在主机上展开或执行控制流运算符。Amazon Inferentia2 还支持动态输入形状,这些形状对于具有未知输入张量大小的模型(例如处理文本的模型)至关重要。
自定义运算符——Amazon Inferentia2支持用C++语言编写的自定义运算符。Neuron自定义C++运算符使用户能够编写在NeuronCore上天然运行的C++自定义运算符。用户可以使用标准的PyTorch自定义运算符编程接口将CPU自定义运算符迁移到Neuron并实现新的实验运算符,所有这些都无需对Neuron Core硬件有任何深入了解。
NeuronLink v2——Inf2实例是Amazon EC2类型中首个将NeuronLink V2 用于推理优化的实例,NeuronLink v2 为Inferentia2芯片间的提供超高速连接,加强分布式推理性能。NeuronLink v2使用all-reduce等聚合通信(CC)运算符,将高性能推理管道扩展到所有的推理芯片上。
新Inf2实例现已可用
用户可在亚马逊云科技美东(俄亥俄州)和美东(北弗吉尼亚州)地区启动Inf2实例,以按需、预留和竞价实例或Savings Plan方式调用。用户仅需为其实际使用的服务付费。如需了解更多相关信息,请访问AmazonEC2定价网站。
Inf2实例可使用亚马逊云科技深度学习镜像进行部署,并可通过Amazon SageMaker、Amazon Elastic Kubernetes Service(Amazon EKS)、Amazon Elastic Container Service(Amazon ECS)和Amazon ParallelCluster等托管服务调用。
计算机科学丛书·云计算:概念、技术与架构
进入购买
关键词:
精心推荐
- Amazon EC2 Inf2实例正式可用 助力更低成本、更高性能的生成式AI推理-环球简讯
- 下好全国一盘棋 "东数"实现"西算"要迈几道坎
- 天天新资讯:北京检方:知识产权侵权手段交叉化、链条化趋势明显
- 冰箱排水孔疏通图解海尔(冰箱排水孔疏通图解)
- 传闻成真!天合光能筹划控股子公司天合智慧分拆上市|焦点热闻
- 美国银行向欧盟转移资产 纸黄金小幅收涨
- 农业农村部:我国耕地质量监测基本网络初步建立
- 今奥科技2022年净利1497.17万同比增长77.45%产品及服务毛利率提高
- 研报掘金|信达证券:智飞生物HPV疫苗需求持续增长维持“买入”评级
- 开山股份:2022年度营收净利同比双增长 收入来源全球化带来亮眼表现
- 天天通讯!旺仔牛奶多少钱一箱24*245_旺仔牛奶多少钱一箱
- 智能测评与辅导_对于智能测评与辅导简单介绍_焦点速递
- 南京聚隆: 关于公司注销回购专户库存股的公告
- 建筑工人与建筑公司是劳动关系吗?
X 关闭
X 关闭
产业
-
不用跑北京 在家门口也能挂上顶...
日前,我省首个神经疾病会诊中心——首都医科大学宣武医院河北医院...
-
“十四五”期间 河北省将优化快...
从省邮政管理局获悉,十四五期间,我省将优化快递空间布局,着力构...
-
张家口市宣化区:光伏发电站赋能...
3月19日拍摄的张家口市宣化区春光乡曹庄子村光伏发电站。张家口市宣...
-
“张同学”商标被多方抢注 涉及...
“张同学”商标被多方抢注,官方曾点名批评恶意抢注“丁真” ...
-
山东济南“防诈奶奶团”花式反诈...
中新网济南12月15日电 (李明芮)“老有所为 无私奉献 志愿服...
-
广州新增1例境外输入关联无症状...
广州卫健委今日通报,2021年12月15日,在对入境转运专班工作人...
-
西安报告初筛阳性病例转为确诊病例
12月15日10:20,经陕西西安市级专家组会诊,西安市报告新冠病毒...
-
广东东莞新增本土确诊病例2例 ...
(抗击新冠肺炎)广东东莞新增本土确诊病例2例 全市全员核酸检测...
-
中缅边境临沧:民警深夜出击捣毁...
中新网临沧12月15日电 (胡波 邱珺珲)记者15日从云南临沧边境...
-
“土家鼓王”彭承金:致力传承土...
中新网恩施12月15日电 题:“土家鼓王”彭承金:致力传承土家...