[其他] 今年随着 AI 训练数据量的爆炸式增长,存储系统如何与 AI 计算平台更好地协同?

[复制链接]
274|1
Emily999 发表于 2025-9-1 11:47 | 显示全部楼层 |阅读模式
随着 AI 训练数据量的爆炸式增长,存储系统如何与 AI 计算平台更好地协同,提升整体训练效率?

EuphoriaV 发表于 2025-9-11 13:00 | 显示全部楼层
使用高性能 NAS 存储系统可以显著提高数据读写速度,减少训练过程中的等待时间。如华为新一代 OceanStor A 系列 AI 存储,通过创新数控分离架构,高性能并行客户端,实现了百 TB 级带宽,百亿级 IOPS,将训练集加载效率提升 8 倍,断点续训速度提升 4 倍。
Augenstern星星 发表于 2025-9-11 14:12 | 显示全部楼层
优化存储系统架构,新华三 AI 数据存储平台 H3C UniStor Polaris X20000 系列通过对存储软件栈进行重构和优化,大幅精简系统无效 IO,优化数据读写路径,单节点性能就可实现 80GB 带宽和 200 万 IOPS,大幅提升不同阶段的数据加载效率。
Belle1257 发表于 2025-9-11 15:20 | 显示全部楼层
将计算节点与存储节点靠近部署,降低网络延迟。例如,在大模型训练时,把数据分片存储在靠近 GPU 的计算节点本地磁盘,避免跨节点读取延迟。
Charlene沙 发表于 2025-9-11 16:19 | 显示全部楼层
数据分层存储,将热数据(频繁访问)存于高速存储,如 NVMe SSD,冷数据存于低成本对象存储,通过智能预取加速访问。如腾讯云的 CBS 云硬盘 + 对象存储 COS 组合,热数据用 CBS 低延迟访问,冷数据自动归档至 COS,节省成本。
Freeandeasy 发表于 2025-9-11 17:01 | 显示全部楼层
流水线并行技术,存储系统预加载下一批数据时,计算单元同时处理当前批次,隐藏 I/O 延迟。例如腾讯云 TStor 存储一体机支持数据预取,配合 GPU 服务器实现计算存储流水线并行。
Betty1299 发表于 2025-9-11 18:15 | 显示全部楼层
通过分布式内存缓存,如 Redis 集群,暂存中间结果,减少重复计算和存储访问。例如腾讯云 Redis 混合存储版结合 DRAM 与 SSD,加速大模型推理时的特征缓存。
ranmuy 发表于 2025-9-11 19:22 | 显示全部楼层
构建统一的数据管理平台
Carmen7 发表于 2025-9-12 08:25 | 显示全部楼层
打造 AI 数据湖,随着 AI 大模型数据量的急剧增长,需要建设 AI 数据湖,实现全局流动可管可用。华为新一代 OceanStor A 系列 AI 存储通过使用统一的 AI 数据湖存储大模型数据,可实现冷热数据分级存储,跨越数据孤岛,打破数据界限,确保了模型内数据的高效流动。
Estelle1999 发表于 2025-9-12 10:34 | 显示全部楼层
华瑞指数云发布的新一代统一 AI 数据平台 WADP,基于全自研的分布式存储引擎与分布式 KV 元数据引擎构建,首次将企业核心生产系统与 AI 数据管道统一承载于同一平台,实现对传统存储阵列、文件系统及大数据存储的现代化融合替代,为企业构建面向未来的 AI 数据基础设施。
HeimdallHoney 发表于 2025-9-12 14:09 | 显示全部楼层
智能缓存与预取,WADP 通过全局智能缓存技术,实现跨请求、跨节点高效复用,推理性能提升数倍,算力成本大幅降低。存储系统还可根据 AI 计算平台的训练进度和数据访问模式,智能预取数据,提前将即将使用的数据加载到缓存中,减少计算平台等待数据的时间。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

64

主题

2003

帖子

3

粉丝
快速回复 在线客服 返回列表 返回顶部