近年来,自动驾驶技术正从规则驱动向端到端大模型、VLA大模型演进,模型规模快速增长,底层算力的需求呈现出持续攀升。但在实际研发过程中,越来越多的企业发现,真正制约模型训练效率的瓶颈不仅在算力规模,还表现在“数据供给”能力。
国内某头部自动驾驶公司在智驾模型训练时发现,随着训练数据规模半年内翻倍增长,超千卡的GPU资源环境下,GPU利用率持续受到存储性能限制,平均在60%-70%,且传统并行文件存储扩容越多、性能衰减越明显。为提高AI训练过程中大规模数据并发读取效率,该用户选择部署元脑QLC全闪服务器NF3180,深度适配AI原生并行文件系统,打造新一代AI并行存储,通过重构统一数据面,实现数据亚毫秒级“零拷贝”流转,可稳定支撑千卡级性能无损线性扩展,在PB级规模下,实现每秒TB级持续聚合带宽,95%以上GPU利用率,单次训练周期从130天缩短到95天,为智驾研发构建起稳定高效的数据底座。
01 智驾训练数据规模跃升,传统并行存储性能衰减成为核心瓶颈
随着自动驾驶研发全面进入数据驱动阶段,海量多模态数据持续涌入。一辆测试车辆每天可产生5-20TB数据,涵盖摄像头视频、激光雷达点云及高精地图等信息,而一套自动驾驶算法训练周期可能长达一年,训练数据在模型迭代过程中持续累积。据研发团队测算,仅半年时间,智驾模型训练数据就从1.2PB增长至3PB,计算与存储扩容需求极为迫切。
然而,若采用传统并行文件系统进行扩容,元数据瓶颈与节点间通信内耗将随规模扩大而急剧加剧,性能无法随节点数量线性增长,扩容越多,性能衰减越多,数据计算存储瓶颈明显。具体来看,扩容后的性能衰减主要体现在两个方面。
一是混合文件高并发读取放大性能损耗。智驾模型分布式训练中,数千任务并发运行,数据存储系统需要承受百万级IOPS随机读压力。与此同时,自动驾驶训练数据类型复杂,既包括KB级图像数据,也包括数十MB级点云、视频片段和高精地图数据。大小文件频繁混合读取,容易导致传统方案的预读算法失效、缓存颠簸和随机读性能下降,带宽利用率下降30%-40%。
在这一场景下,GPU虽然算力充足,却难以获得稳定、连续的数据流入。随着训练数据规模继续扩大,这类混合IO压力会进一步放大,导致存储扩容后有效供数能力无法同步提升。
二是数据跨协议转换耗时长。在传统计算存储架构中,智驾模型训练数据在归档、训练、仿真三个阶段依赖对象存储、并行文件系统与块存储等不同协议,百亿级多模态文件需在三套系统间反复搬迁。单次PB级数据迁移耗时长,大量网络与计算资源被白白消耗。据研发团队核算,约80%的数据准备时间消耗在此类数据准备(数据发现、处理和拷贝等)工作中,真正用于模型计算的时间严重不足。随着数据规模持续扩大,这种跨系统数据搬迁也会进一步放大存储扩容后的效率损耗。
02 打造新一代AI并行存储系统,破解容量扩展性能衰减难题
面对上述挑战,元脑QLC全闪服务器为头部智驾公司打造新一代AI并行存储系统,该系统基于QLC全闪存储介质,深度协同AI原生并行文件系统,通过软硬一体化设计全面适配智驾"读密集"训练场景:硬件层,元脑QLC全闪服务器通过全路径PCIe 5.0与NUMA均衡设计,搭配12通道DDR5内存及两张400G高速网卡,彻底消除内外部I/O瓶颈;软件层,该系统采用AI原生的并行文件系统,通过存算解耦、无中心元数据的分布式架构,实现容量、带宽与IOPS随节点数同步线性增长,支撑PB乃至EB级规模下性能无损扩展。两者协同,从底层重构数据供给通路,存储数据规模增长不再以牺牲性能为代价;GPU利用率从60%-70%跃升至95%以上,聚合带宽突破1TB/s,单次训练周期从130天压缩至95天,同时成本和机房空间得到了大幅节省。
// 智能调度精准供数,全程满载不空转
面对自动驾驶训练高并发、小文件与大文件混合读取的典型特征,浪潮信息基于元脑NF3180服务器与AI原生并行文件系统,重构智能IO调度与数据分级机制,将访问频繁的小文件放在高速缓存,大文件放在大容量QLC池,并行处理不同IO模式;对于混合负载中的随机写请求,系统采用专门的随机写缓存与后备缓存机制,避免随机写操作干扰整体IO流程,减少写放大,保障了整体IO路径的平稳。在大规模训练环境中,该方案能够持续为GPU提供稳定数据流,有效缓解“GPU等数据”现象,使训练过程更加平稳高效,充分释放算力资源价值,提升整体训练效率。
// 重构统一数据面,归档训练不搬迁
针对传统多存储系统并存、数据频繁搬迁带来的延迟与资源浪费问题,浪潮信息为其构建统一存储池。通过构建统一存储命名空间与多协议融合设计,原生支持文件、对象、块等多协议接入,数据在不同协议间实现“零拷贝”流转,每次新增写入的自动驾驶训练数据,都能以亚毫秒级的延迟对整个网络可见,显著减少不同协议之间的数据跨系统搬迁需求,提升整体数据访问效率。
在自动驾驶持续向更高等级智能演进的过程中,数据规模与访问频率仍将持续增长。以新一代AI全闪为代表的存储架构,正在成为支撑大规模AI训练的重要基础设施选择。对于自动驾驶这一典型数据密集型场景而言,稳定、高效、可持续的数据底座,将成为推动模型快速迭代和技术持续突破的重要保障。未来,浪潮信息将持续进行软硬协同的架构创新,为智能驾驶模型训练构建面向未来的数据基础能力,也为自动驾驶产业加速发展提供了更加坚实的底层支撑。

评论