英特尔已为MetaLlama3GenAI工作负载做好准备
发布时间:2024-04-19 11:02:58 编辑:晏永豪 来源:
新闻稿:今天,Meta推出了下一代大型语言模型(LLM)MetaLlama3。自发布之日起,英特尔已针对首批Llama38B和70B型号验证了其AI产品组合,涵盖Gaudi加速器、Xeon处理器、CoreUltra处理器和ArcGPU。
重要性:作为让人工智能无处不在的使命的一部分,英特尔投资于软件和人工智能生态系统,以确保其产品为动态人工智能领域的最新创新做好准备。在数据中心,具有高级矩阵扩展(AMX)加速功能的Gaudi和Xeon处理器为客户提供了满足动态和广泛需求的选择。
英特尔酷睿Ultra处理器和Arc显卡产品提供本地开发工具和跨数百万设备的部署,并支持全面的软件框架和工具,包括用于本地研发的PyTorch和IntelExtensionforPyTorch以及用于模型开发和推理的OpenVINO工具包。
关于在英特尔上运行的Llama3:英特尔对Llama38B和70B型号的初步测试和性能结果使用开源软件,包括PyTorch、DeepSpeed、OptimumHabana库和IntelExtensionforPyTorch,以提供最新的软件优化。
英特尔Gaudi2加速器在Llama2型号上优化了性能(7B、13B和70B参数),现在对新的Llama3型号进行了初步性能测量。随着Gaudi软件的成熟,英特尔可以轻松运行新的Llama3模型并生成用于推理和微调的结果。最近发布的Gaudi3加速器也支持Llama3。
英特尔至强处理器可满足要求严格的端到端人工智能工作负载,英特尔投资优化LLM结果以减少延迟。与第四代Xeon处理器相比,具有高性能核心(代号GraniteRapids)的Xeon6处理器的Llama38B推理延迟提高了2倍,并且能够运行更大的语言模型(如Llama370B),每个生成的令牌的时间低于100毫秒。
IntelCoreUltra和ArcGraphics为Llama3提供了令人印象深刻的性能。在第一轮测试中,CoreUltra处理器的生成速度已经超过了人类典型的阅读速度。此外,ArcA770GPU具有XeMatrixeXtensions(XMX)AI加速和16GB专用内存,可为LLM工作负载提供卓越的性能。
至强可扩展处理器
英特尔一直在不断优化Xeon平台的LLM推理。例如,与Llama2相比,PyTorch和IntelExtensionforPyTorch中的软件改进已经发展到可将延迟减少5倍。该优化利用分页注意力和张量并行来最大化可用的计算利用率和内存带宽。图1显示了MetaLlama38B推理在基于第四代Xeon可扩展处理器的AWSm7i.metal-48x实例上的性能。
我们在具有性能核心(以前代号为GraniteRapids)的Xeon6处理器上对MetaLlama3进行了基准测试,以分享性能预览。这些预览数据表明,与广泛使用的第四代Xeon处理器相比,Xeon6的Llama38B推理延迟提高了2倍,并且能够运行更大的语言模型(如Llama370B),在单个两层上每个生成的令牌不到100毫秒。套接字服务器。
上一篇:NVIDIAGPU为Meta的下一代Llama3模型提供动力并在包括RTX在内的所有平台上优化了AI
下一篇:最后一页
- 数百个连接器烧毁的GeForceRTX4090GPU仍被送往维修店进行修复
- InfinixNote40Pro5G系列将彻底改变无线充电具体方法如下
- 据报道三星计划在4月份修复GalaxyS24Ultra的相机问题
- 监测淡水质量的新方法可以识别污染源并预测其影响
- 苹果高管为公司配备8GB统一RAM的MacBook系列辩护称这种配置适合许多任务
- 现实生活中的GTA6预告片绝对是杰作
- 当沃丁顿遇见亥姆霍兹EPR-Net用于构建复杂非平衡系统的潜在景观
- 小米RedmiPadPro和RedmiTurbo3特别版设计公布附带限量配件
- 配备OLED显示屏和新设计的AppleiPadPro彭博社透露发布日期细节
- 苹果向开发者发布macOS14.5 watchOS10.5 tvOS17.5 visionOS1.2Beta1
- 苹果现在认为iPhone6Plus已过时iPadMini4已过时
- WhatsApp状态更新可能会有一个简化的赞按钮以便快速反应
- Pixel9ProXL将成为第三款Pixel手机谷歌从三星页面上拿下一本并推出了三种变体
- 宜家刚刚让所有快速充电器看起来价格过高
- 竞争对手D&DRPG探路者 辐射和战锤最高优惠357美元