AMEYA360报道:存算一体技术如何突破算力瓶颈

[复制链接]
1119|1
 楼主| 皇华Ameya360 发表于 2023-4-3 11:04 | 显示全部楼层 |阅读模式
  算力即计算能力,具体指硬件对数据收集、传输、计算和存储的能力,算力的大小表明了对数字化信息处理能力的强弱,常用计量单位是FLOPS(Floating-pointoperationspersecond),表示每秒浮点运算次数。

  当前大模型的训练和推理多采用GPGPU。GPGPU是一种由GPU去除图形处理和输出,仅保留科学计算、AI训练和推理功能的GPU。GPU芯片最初用于计算机系统图像显示的运算,但因其相比于擅长横向计算的CPU更擅长于并行计算,在涉及到大量的矩阵或向量计算的AI计算中很有优势,GPGPU应运而生。

  在这波ChatGPT浪潮中长期押注AI的英伟达可以说受益最多,ChatGPT、包括各种大模型的训练和推理,基本都采用英伟达的GPU。目前国内多个厂商都在布局GPGPU,包括天数智芯、燧原科技、壁仞科技、登临科技等,不过当前还较少能够应用于大模型。

  事实上业界认为,随着模型参数越来越大,GPU在提供算力支持上也存在瓶颈。在GPT-2之前的模型时代,GPU内存还能满足AI大模型的需求,近年来,随着Transformer模型的大规模发展和应用,模型大小每两年平均增长240倍,实际上GPT-3等大模型的参数增长已经超过了GPU内存的增长。传统的设计趋势已经不能适应当前的需求,芯片内部、芯片之间或AI加速器之间的通信成为了AI计算的瓶颈。而存算一体作为一种新型架构形式受到关注,存算一体将存储和计算有机结合,直接在存储单元中处理数据,避免了在存储单元和计算单元之间频繁转移数据,减少了不必要的数据搬移造成的开销,不仅大幅降低了功耗,还可以利用存储单元进行逻辑计算提高算力,显著提升计算效率。

  大模型的训练和部署不仅对算力提出了高要求,对能耗的要求也很高,从这个角度来看,存算一体降低功耗,提升计算效率等特性在大模型方面确实更具优势。

  因为独具优势,过去几年已经有众多企业进入到存算一体领域,包括知存科技、千芯科技、苹芯科技、后摩智能、亿铸科技等。各企业的技术方向也有所不同,从介质层面来看,有的采用NORFlash,有的采用SRAM,也有的采用RRAM。
佟研 发表于 2025-11-19 20:28 | 显示全部楼层
                     《存算一体技术如何突破算力瓶颈》
       存算一体+英伟达芯片:双重赋能,彻底打破AI算力瓶颈
       在AI模型向万亿参数级跨越、数据处理量呈爆炸式增长的今天,传统“存储-计算分离”架构带来的传输延迟、算力损耗,已成为制约AI服务器性能的核心瓶颈。而存算一体技术通过将存储与计算单元紧密融合,缩短数据搬运路径、降低能耗的创新思路,为突破瓶颈提供了重要方向,但若想充分释放其潜力,离不开强悍的芯片硬件与完善的生态支撑——NVIDIA作为加速计算领域的领军者,以全栈式解决方案让存算一体的价值最大化,成为突破算力瓶颈的关键推手。
      存算一体的核心优势在于“数据不搬家”,但这一架构的高效运行,需要芯片具备兼顾算力密度、互联效率与软件兼容性的综合能力。NVIDIA Hopper架构下的H100芯片,正是为此类创新场景量身打造的核心硬件:其FP8算力高达600TFLOPS,能为存算一体系统提供澎湃的计算动力,搭配NVLink高速互联技术,可实现多卡集群的无缝协同,让存算一体架构下的分布式计算效率翻倍,轻松支撑超大规模模型的训练与推理任务。更重要的是,NVIDIA构建了“GPU+CPU+DPU”三位一体的协同架构,Grace CPU专为AI工厂级数据中心设计,BlueField DPU则能卸载网络、存储及安全业务,与存算一体技术形成互补,进一步减少算力损耗,让数据处理的端到端效率达到新高度。
      除了硬件层面的强悍性能,NVIDIA完善的软件生态更是存算一体技术落地的重要保障。其兼容TensorFlow、PyTorch等主流AI框架,搭配Triton推理服务器、多实例GPU(MIG)等工具,能为存算一体系统提供灵活的算力调度方案,无论是高并发的推理场景,还是海量数据的训练任务,都能实现算力资源的精准匹配。同时,NVIDIA官网(https://www.nvidia.cn/data-center/h100/)提供了完整的存算一体适配方案,涵盖硬件选型、集群部署、软件优化的全流程指导,帮助企业快速落地技术、规避适配风险。通过NVIDIA LaunchPad的免费实操实验,企业还能提前体验存算一体+NVIDIA芯片在图像分类、对话式AI等场景下的性能表现,为后续部署提供可靠参考。
      从实际应用价值来看,存算一体技术与NVIDIA芯片的结合,不仅能突破算力瓶颈,更能显著降低企业的综合成本——减少服务器部署数量、缩短模型迭代周期,让AI项目的投资回报时间大幅缩短。无论是科技企业的大规模AI研发,还是传统行业的智能化转型,这一组合都能提供稳定、高效的算力支撑。想要深入了解存算一体与NVIDIA芯片的适配细节、获取定制化解决方案,可直接访问官网探索更多内容,让NVIDIA的全栈技术助力企业在AI时代抢占先机。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

209

主题

209

帖子

0

粉丝
快速回复 在线客服 返回列表 返回顶部