AIDC(人工智能数据中心)全面梳理报告

用于领导汇报参考 更新时间:2026年3月


一、AIDC概述

1.1 什么是AIDC?

AIDC(Artificial Intelligence Data Center,人工智能数据中心)是专门为人工智能 workloads 设计的新型数据中心。与传统数据中心不同,AIDC 需要支持:

1.2 AIDC vs 传统数据中心

维度 传统数据中心 AIDC
核心负载 通用计算 (CPU) AI训练/推理 (GPU/TPU)
单机柜功率 5-8kW 15-50kW
网络带宽 10-40G 200-400G
存储类型 HDD为主 NVMe SSD + 分布式存储
制冷方式 房间级制冷 液冷/浸没式制冷
能效要求 PUE 1.3-1.5 PUE < 1.2

二、核心硬件设备

2.1 智算设备

2.1.1 GPU服务器

类型 典型型号 算力 (FP16) 功耗 适用场景
训练服务器 NVIDIA A100 8-GPU 15 PFlops 6.5kW 大模型训练
训练服务器 NVIDIA H100 8-GPU 51 PFlops 10kW 大模型训练
推理服务器 NVIDIA L40S 8-GPU 18.8 PFlops 3.2kW 推理服务
推理服务器 NVIDIA L2 500 TFlops 275W 边缘推理

2.1.2 国产算力卡

厂商 型号 算力 备注
华为 Ascend 910 640 TFLOPS (FP16) 国产替代
寒武纪 MLU370 256 TFLOPS 国产替代
海光 DCU Z100 256 TFLOPS 国产替代
摩尔线程 MTT X400 256 TFLOPS 国产替代

2.1.3 关键配套

2.2 存储设备

2.2.1 存储类型

存储类型 典型产品 容量 带宽 延迟 用途
分布式存储 华为OceanStor 10PB+ 100GB/s ms级 训练数据
全闪存存储 Dell PowerMax 1PB 50GB/s μs级 模型存储
对象存储 MinIO/Ceph EB级 50GB/s ms级 归档数据
本地NVMe 三星PM9A3 15.36TB 7GB/s μs级 缓存/临时数据

2.2.2 存储网络

2.2.3 核心部件

部件 主流规格 备注
SSD NVMe 7.68TB/15.36TB 三星/Intel/长江存储
HDD 16TB/20TB HAMR 数据归档
存储控制器 双控/多控 高可用
扩展柜 12/24盘位 JBOD

2.3 网络设备

2.3.1 交换机

层级 产品 端口 带宽 备注
接入层 NVIDIA QM9700 64 port 400G GPU互联
汇聚层 华为 CloudEngine 16800 64 port 400G 高性能
核心层 Cisco Nexus 9336C 36 port 400G 骨干
安全管理 华为防火墙 100G 安全隔离

2.3.2 网卡

类型 型号 带宽 协议 用途
HCA ConnectX-7 400G IB/RoCE GPU服务器
OCP网卡 Mellanox ConnectX-6 200G IB/RoCE 通用服务器
智能网卡 NVIDIA BlueField-3 200G DPU 安全/卸载

2.3.3 光模块/线缆

类型 速率 距离 功耗
AOC光缆 400G 30m 5W
QSFP-DD 400G 2km 10W
OSFP 800G 2km 15W

2.3.4 光纤跳线/线缆


三、组网方案

3.1 网络架构设计

┌─────────────────────────────────────────────────────────────┐ │ 互联网/专线出口 │ └─────────────────┬───────────────────────────────────────────┘ │ ┌────────▼────────┐ │ 核心交换机 │ (核心层 - 400G) └────────┬────────┘ │ ┌─────────────┼─────────────┐ │ │ │ ┌───▼───┐ ┌───▼───┐ ┌───▼───┐ │汇聚1 │ │汇聚2 │ │汇聚3 │ (汇聚层 - 400G) └───┬───┘ └───┬───┘ └───┬───┘ │ │ │ ┌───┴───┐ ┌───┴───┐ ┌───┴───┐ │GPU池1 │ │GPU池2 │ │GPU池3 │ (接入层 - 200G/400G) │(32卡) │ │(32卡) │ │(32卡) │ └───────┘ └───────┘ └───────┘

3.2 典型组网方案

3.2.1 方案一:InfiniBand 组网(推荐)

优点: - 超低延迟 (< 1μs) - 高带宽 (200G/400G) - GPUDirect RDMA 原生支持

拓扑: Full-mesh + Switch

┌──────────────┐ │ IB Switch │ │ NDR 400G │ └──────┬───────┘ │ ┌──────────┼──────────┐ │ │ │ ┌───┴───┐ ┌───┴───┐ ┌───┴───┐ │ A100×8│ │ A100×8│ │ A100×8│ │ GPU1 │ │ GPU2 │ │ GPU3 │ └───────┘ └───────┘ └───────┘

设备清单:

设备 数量 单价参考 备注
IB交换机 (NDR) 2-4台 30-50万 核心互联
IB网卡 (ConnectX-7) 按服务器 1.5万/块 每服务器2-4块
光模块 (400G) 若干 8000/个
MPO光纤线缆 若干 2000/条

3.2.2 方案二:RoCE 以太网组网(成本优先)

优点: - 成本较低 - 运维成熟 - 与现有网络兼容

**拓扑:Leaf-Spine 两层

┌──────────────┐ │ Spine │ 100G/400G │ 交换机 │ └──────┬───────┘ │ ┌──────────┼──────────┐ │ │ │ ┌───┴───┐ ┌───┴───┐ ┌───┴───┐ │ Leaf │ │ Leaf │ │ Leaf │ 100G接入 └───┬───┘ └───┬───┘ └───┬───┘ │ │ │ ┌───┴───┐ ┌───┴───┐ ┌───┴───┐ │服务器 │ │服务器 │ │服务器 │ └───────┘ └───────┘ └───────┘

3.3 网络平面设计

平面 带宽 用途 VLAN/独立
管理网 10G 设备管理、BMC 独立VLAN
业务网 100G-400G AI训练流量 独立VLAN
存储网 100G NVMe-oF/iSCSI 独立VLAN
带外管理 1G IPMI/BMC 物理隔离

四、容量评估

4.1 算力容量评估

4.1.1 需求估算公式

总算力 (PFlops) = 模型参数量 × 训练Token数 × 计算系数 / (GPU算力 × GPU数量 × 训练效率 × 时间)

简化估算: - 175B参数模型,300B tokens,使用 A100 训练: - 预计需要 3000+ A100-GPU 天 - 或 500台 8-GPU 服务器

4.1.2 常见模型算力需求

模型 参数量 训练算力需求 (PFlops-day) A100数量(约)
GPT-3 175B 3,000 500
LLaMA-70B 70B 1,200 200
ChatGLM-6B 6B 30 5
Stable Diffusion 1B 50 8

4.2 存储容量评估

4.2.1 存储需求估算

数据类型 估算方式 典型规模
训练数据 原始数据 × 压缩率 100TB - 10PB
模型参数 参数量 × 2字节(FP16) 350GB (175B模型)
Checkpoint 参数 × 3份 1TB/份
日志/中间结果 视情况 10-100TB

4.2.2 存储容量规划

总存储 = 训练数据存储 + 模型存储 + 临时缓存 + 安全冗余

示例:1000台GPU服务器

存储类型 容量需求 典型配置
对象存储 5PB 3副本/EC
分布式块存储 2PB 全闪存
本地SSD缓存 500TB NVMe 7.68TB × 64

4.3 网络带宽评估

4.3.1 带宽需求

场景 单GPU带宽需求 总带宽需求
训练 (数据并行) 10-20 Gbps 200G-400G/服务器
训练 (模型并行) 50-100 Gbps 800G+/服务器
推理 1-5 Gbps 25G-100G/服务器

4.3.2 接入交换机端口

接入交换机端口 = 服务器数量 × 每服务器网卡数 × 2 (冗余)

示例:100台AI服务器 - 每台 2×200G网卡 - 需要 100 × 2 × 2 = 400 个 200G 端口 - 约 7-8 台 64口 交换机

4.4 电力与制冷评估

4.4.1 电力需求估算

设备类型 单机柜功率 备注
A100 8-GPU服务器 6-8 kW 风冷
H100 8-GPU服务器 10-12 kW 液冷
存储服务器 3-5 kW
网络设备 2-4 kW

总电力估算: 总功率 = 服务器数量 × 单机功率 × 1.2 (UPS/制冷冗余)

示例:500台AI服务器 (10kW/台) - IT负载:500 × 10kW = 5000kW - 加上制冷/照明:5000 × 1.3 = 6500kW - 建议变压器:2×4000kVA 或 3×2500kVA

4.4.2 制冷方案

方案 适用功率密度 PUE 优点 缺点
风冷 < 8kW/柜 1.4-1.6 简单 噪音大
液冷 (冷板) 8-20kW/柜 1.1-1.3 高效 需要改造成本
浸没式 > 20kW/柜 < 1.1 最高效 维护复杂

建议: 10kW以上机柜优先考虑液冷

4.5 机柜空间评估

设备类型 占用空间 典型配置
GPU服务器 4U-6U 42U机柜可放6-8台
存储服务器 2U-4U 42U机柜可放8-12台
网络交换机 1U-2U 42U机柜可放20+台
液冷CDU 2U-4U 需独立机柜

五、建设成本估算

5.1 典型AIDC投资构成

占比 组成部分 1亿元AIDC示例
35% IT设备 (服务器/存储) 3500万
25% 网络设备 2500万
15% 电力系统 1500万
10% 制冷系统 1000万
8% 机柜/布线 800万
7% 其他 (消防/装修) 700万

5.2 单机柜建设成本

功率密度 建设成本 (参考)
5kW/柜 8-10万
8kW/柜 12-15万
15kW/柜 20-25万

六、主流厂商方案

6.1 整体解决方案厂商

厂商 优势 代表产品
华为 国产全栈 昇腾+OceanStor+CloudEngine
浪潮 性价比 NF5688M7服务器
新华三 网络优势 UniServer+交换机
阿里云 运营经验 灵骏AIDC

6.2 专业设备厂商

类别 主流厂商
GPU服务器 浪潮、华为、新华三、宁畅
存储 华为、Dell、NetApp、宏杉
网络 华为、新华三、Cisco、Mellanox
液冷 浪潮、维谛、华为

七、实施建议

7.1 建设流程

1. 需求分析 → 2. 方案设计 → 3. 设备选型 → 4. 集采招标 5. 机房改造 → 6. 设备交付 → 7. 部署调试 → 8. 验收上线

7.2 关键考量点

  1. 算力规划:根据业务选择合适GPU型号,兼顾当下需求和未来扩展
  2. 网络架构:优先考虑RDMA网络(IB或RoCE),保障训练效率
  3. 存储分层:热数据用NVMe,温数据用SSD,冷数据用对象存储
  4. 绿色节能:高功率密度机房优先液冷,PUE目标<1.3
  5. 国产化:考虑昇腾等国产方案,降低供应链风险

附录:术语表

术语 全称 解释
AIDC Artificial Intelligence Data Center 人工智能数据中心
GPU Graphics Processing Unit 图形处理器
RDMA Remote Direct Memory Access 远程直接内存访问
NVMe Non-Volatile Memory Express 高速存储协议
IB InfiniBand 高性能计算网络
RoCE RDMA over Converged Ethernet 以太网上的RDMA
PUE Power Usage Effectiveness 能效比
CDU Coolant Distribution Unit 冷却液分配单元
OCP Open Compute Project 开放计算项目

本报告供领导参考,内容基于行业通用实践整理